ShemoonX / Chinese-image-caption

Image Chinese Description Generation Based on Multi-level Selective Visual Semantic Attributes
12 stars 5 forks source link

image caption,结果中,出现多个同类型的词 #1

Open cylvzj opened 4 years ago

cylvzj commented 4 years ago

你好,我用的是COCO数据集, 两层LSTM模型, 一层用于实现自上而下的注意力,一层实现语言模型。

用jieba提取词 我将所有图片描述中,出现频率大于3次的词作为字典文件,一共有14226个词。 words = [w for w in word_freq.keys() if word_freq[w] > 3]

训练好模型后,在使用时,结果中出现多个同类型的词,比如: 放在 床上 的 笔记 笔记本 笔记本电脑 电脑 一个 小女 小女孩 女孩 站 在 一起

请教一下,应该怎样解决这个问题?

ShemoonX commented 4 years ago

您好,谢谢你的提问。 看了问题的描述,最后结果中出现多个同义词,但这些同义词并不完全相同,比如:女孩,小女孩。。。 原因可能是,在提取词表时,提取了过多的词,你这里提取了14000多词,可能就把很多同义词都提取了,这样就导致最后生成结果会有很多同义词。 而且,提取了这么多词作为词表,会让模型的参数变得非常多,这样训练不收敛也可能导致一些问题的出现。 建议:可以先尝试提取少一些的更具图像代表性词,比如我只提取了筛选了词性和出现频率的2048个词。 ------------------ 原始邮件 ------------------ 发件人: "cylvzj"notifications@github.com 发送时间: 2020年2月20日(星期四) 中午11:45 收件人: "ShemoonX/Chinese-image-caption"Chinese-image-caption@noreply.github.com; 抄送: "Subscribed"subscribed@noreply.github.com; 主题: [ShemoonX/Chinese-image-caption] image caption,结果中,出现多个同类型的词 (#1)

你好,我用的是COCO数据集, 两层LSTM模型, 一层用于实现自上而下的注意力,一层实现语言模型。

用jieba提取词 我将所有图片描述中,出现频率大于3次的词作为字典文件,一共有14226个词。 words = [w for w in word_freq.keys() if word_freq[w] > 3]

训练好模型后,在使用时,结果中出现多个同类型的词,比如: 放在 床上 的 笔记 笔记本 笔记本电脑 电脑 一个 小女 小女孩 女孩 站 在 一起

请教一下,应该怎样解决这个问题?

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

cylvzj commented 4 years ago

谢谢回复, 是提取了很多同义词。 怎样提取少一些的更具图像代表性词了?

ShemoonX commented 4 years ago

你好,通过筛选词频,然后通过jieba筛选词性(如去除一些词:了,的。。。)。更多细节在代码中都有。

发自我的iPhone

------------------ 原始邮件 ------------------ 发件人: cylvzj <notifications@github.com> 发送时间: 2020年2月21日 09:13 收件人: ShemoonX/Chinese-image-caption <Chinese-image-caption@noreply.github.com> 抄送: XiaoYH <731986073@qq.com>, Comment <comment@noreply.github.com> 主题: 回复:[ShemoonX/Chinese-image-caption] image caption,结果中,出现多个同类型的词 (#1)

谢谢回复, 是提取了很多同义词。 怎样提取少一些的更具图像代表性词了?

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

cylvzj commented 4 years ago

谢谢回复,我试一下。

cylvzj commented 4 years ago

请问一下, 怎样减少奖励权重 (reduce the weight of the concept reward)?

cylvzj commented 4 years ago

桌子 上 有 一个 杯子 和 一个 杯子 蓝色 和 蓝色 的 被子 和 蓝色 的 被子 一个 橙色 的 盘子 , 上面 有 一个 橙色 的 飞盘

请教一下, 输出这样的结果,一般是什么问题?

ShemoonX commented 4 years ago

你好,考虑是否网络过深,训练不充分。

cylvzj commented 4 years ago

训练了 50000个批次, 也许是网络问题

ShemoonX commented 4 years ago

考虑使用一下官方的AI 竞赛的数据集

cylvzj commented 4 years ago

我只下载到了 2017年的 中文图像描述 数据集,有最新的吗?

现在这个模型 默认支持 Coco, 要对输入进行修改。

ShemoonX commented 4 years ago

你好,我使用的就是2017年的,现在最新的数据集我并不清楚,不好意思。

cylvzj commented 4 years ago

没事,谢谢回复。