xiongma / transformer-pointer-generator

A Abstractive Summarization Implementation with Transformer and Pointer-generator
MIT License
395 stars 79 forks source link

关于copy部分的问题 #39

Open BBLoatheb opened 4 years ago

BBLoatheb commented 4 years ago

你是使用了character而非word,并且删去了decoder扩充字典这一操作,是这样吗?

HitAgain commented 4 years ago

我猜测是的,按照作者数据处理的代码所有oov词的id都取‘UNK’对应的id,则数据流中的id都一定会在dict里面有对应,而作者模型中计算finial_dist里面,最终调用tf.scatter_nd函数时候,最后一维的大小是vocabsize,所以没有扩展,但这样的问题就是当需要复制oov到当前步骤的摘要产生时候都会是unk,所以反推只能是基于字,换句话说作者基于字就不存在oov问题,copy机制更像是对source text的attention和vocab distribution的加权和,希望帮到你

BBLoatheb commented 4 years ago

我猜测是的,按照作者数据处理的代码所有oov词的id都取‘UNK’对应的id,则数据流中的id都一定会在dict里面有对应,而作者模型中计算finial_dist里面,最终调用tf.scatter_nd函数时候,最后一维的大小是vocabsize,所以没有扩展,但这样的问题就是当需要复制oov到当前步骤的摘要产生时候都会是unk,所以反推只能是基于字,换句话说作者基于字就不存在oov问题,copy机制更像是对source text的attention和vocab distribution的加权和,希望帮到你

谢谢,我当时确实很疑惑这一点。可能作者主要目的并不是解决oov的问题,而是提高原文中出现的字被选中的概率吧。

xueyouluo commented 4 years ago

其实用spm分词不就好了吗,不需要扩展词表

gaozhiguang commented 3 years ago

您好,您在上面说的意思是这里作者并没有实现copy机制吗?就是指的pointer network论文里面的copy机制。 @HitAgain

gaozhiguang commented 3 years ago

你是使用了character而非word,并且删去了decoder扩充字典这一操作,是这样吗?

您说的character是指的英文字母吗?还是中文里的字。另外,这里有实现copy机制吗?就是与原论文pointer network一致的copy机制。因为最近赶论文,想找个transformer copy机制的实现快速套用,您知道有哪些好的资料吗?

BBLoatheb commented 3 years ago

你是使用了character而非word,并且删去了decoder扩充字典这一操作,是这样吗?

您说的character是指的英文字母吗?还是中文里的字。另外,这里有实现copy机制吗?就是与原论文pointer network一致的copy机制。因为最近赶论文,想找个transformer copy机制的实现快速套用,您知道有哪些好的资料吗?

我说的是中文汉字的字,然后这里可能缺少了扩充字典的操作,即将oov的词在其出现之后扩充到字典中,但是复制本身还是可以正常运作的。简单来说可以实现复制,但是不太能解决oov问题,HitAgain也说了,这里用的是字,oov现象可能本身就不太常见。

gaozhiguang commented 3 years ago

你是使用了character而非word,并且删去了decoder扩充字典这一操作,是这样吗?

您说的character是指的英文字母吗?还是中文里的字。另外,这里有实现copy机制吗?就是与原论文pointer network一致的copy机制。因为最近赶论文,想找个transformer copy机制的实现快速套用,您知道有哪些好的资料吗?

我说的是中文汉字的字,然后这里可能缺少了扩充字典的操作,即将oov的词在其出现之后扩充到字典中,但是复制本身还是可以正常运作的。简单来说可以实现复制,但是不太能解决oov问题,HitAgain也说了,这里用的是字,oov现象可能本身就不太常见。

您说的扩充字典是什么意思呢?copy机制实现的应该是一个动态的词表吧,碰到oov的单词或字只需要暂时的扩充词表吧

yx1100 commented 3 years ago

你是使用了character而非word,并且删去了decoder扩充字典这一操作,是这样吗?

您说的character是指的英文字母吗?还是中文里的字。另外,这里有实现copy机制吗?就是与原论文pointer network一致的copy机制。因为最近赶论文,想找个transformer copy机制的实现快速套用,您知道有哪些好的资料吗?

我最近也需要找一个Transformer+Pointer的模型急用,不知道你有找到吗?或者可以交流一下?

gaozhiguang commented 3 years ago

你是使用了character而非word,并且删去了decoder扩充字典这一操作,是这样吗?

您说的character是指的英文字母吗?还是中文里的字。另外,这里有实现copy机制吗?就是与原论文pointer network一致的copy机制。因为最近赶论文,想找个transformer copy机制的实现快速套用,您知道有哪些好的资料吗?

我最近也需要找一个Transformer+Pointer的模型急用,不知道你有找到吗?或者可以交流一下?

已经在邮件中进行了回复,望知悉。

meizhiju commented 3 years ago

你是使用了character而非word,并且删去了decoder扩充字典这一操作,是这样吗?

您说的character是指的英文字母吗?还是中文里的字。另外,这里有实现copy机制吗?就是与原论文pointer network一致的copy机制。因为最近赶论文,想找个transformer copy机制的实现快速套用,您知道有哪些好的资料吗?

我最近也需要找一个Transformer+Pointer的模型急用,不知道你有找到吗?或者可以交流一下?

已经在邮件中进行了回复,望知悉。

同求Transformer+Pointer的模型,谢谢!

yx1100 commented 3 years ago

你是使用了character而非word,并且删去了decoder扩充字典这一操作,是这样吗?

您说的character是指的英文字母吗?还是中文里的字。另外,这里有实现copy机制吗?就是与原论文pointer network一致的copy机制。因为最近赶论文,想找个transformer copy机制的实现快速套用,您知道有哪些好的资料吗?

我最近也需要找一个Transformer+Pointer的模型急用,不知道你有找到吗?或者可以交流一下?

已经在邮件中进行了回复,望知悉。

同求Transformer+Pointer的模型,谢谢!

你可以参考一下这个项目,https://github.com/steph1793/Pointer_Transformer_Generator 或者如果你的分词是用的wordpiece级别的,其实就基本上杜绝OOV的问题了