关于知识噪声的问题

autoliuweijie / K-BERT

Source code of K-BERT (AAAI2020)

https://ojs.aaai.org//index.php/AAAI/article/view/5681

951 stars 213 forks source link

关于知识噪声的问题 #23

Closed tonyqtian closed 4 years ago

tonyqtian commented 4 years ago

你好，我发现K-bert目前的entity linking的方式比较直接，并不会对有多种含义的实体进行区别，在实际使用过程中这往往会带来噪声，特别是一些大的知识库，有高频词带低频标签的情况。比如用到过一个百科知识库里，有舒适 → 作家名这样的实体映射，也有大量一词多义的现象，单纯从word matching选择实体很容易将大量的噪声带入。在实际使用中我发现特别是inference过程，大量是因为这类噪声知识的引入，反而让模型错判。

1 针对目前直接查表的entity linking，请问有没有合适的降噪思路？ 2 我看到作者提到“知识驱动”型任务，在微观层面是对每个识别的实体判断是否需要引入知识，请问这方面有没有什么思路或者可以借鉴的前沿研究可以参考？比如早年比较火的attention机制，有没有可能引入类似selective attention的方法，来判断实体是否应该挂载知识以及挂载哪个知识，这类思路和k-bert的知识挂载方式有没有结合点？

autoliuweijie commented 4 years ago

你好，我发现K-bert目前的entity linking的方式比较直接，并不会对有多种含义的实体进行区别，在实际使用过程中这往往会带来噪声，特别是一些大的知识库，有高频词带低频标签的情况。比如用到过一个百科知识库里，有舒适 → 作家名这样的实体映射，也有大量一词多义的现象，单纯从word matching选择实体很容易将大量的噪声带入。在实际使用中我发现特别是inference过程，大量是因为这类噪声知识的引入，反而让模型错判。

1 针对目前直接查表的entity linking，请问有没有合适的降噪思路？ 2 我看到作者提到“知识驱动”型任务，在微观层面是对每个识别的实体判断是否需要引入知识，请问这方面有没有什么思路或者可以借鉴的前沿研究可以参考？比如早年比较火的attention机制，有没有可能引入类似selective attention的方法，来判断实体是否应该挂载知识以及挂载哪个知识，这类思路和k-bert的知识挂载方式有没有结合点？

你好，正如你所说，在entity linking中因一词多义等原因引入的噪声是一个亟待解决的问题。如你所说，使用attention机制给每个候选entity打分是一个方法，目前我们还在尝试，不久将会推出K-BERT2.0，将会比当前版本的K-BERT鲁棒性更好，欢迎关注哈。

Graduo commented 4 years ago

你好，我发现K-bert目前的entity linking的方式比较直接，并不会对有多种含义的实体进行区别，在实际使用过程中这往往会带来噪声，特别是一些大的知识库，有高频词带低频标签的情况。比如用到过一个百科知识库里，有舒适 → 作家名这样的实体映射，也有大量一词多义的现象，单纯从word matching选择实体很容易将大量的噪声带入。在实际使用中我发现特别是inference过程，大量是因为这类噪声知识的引入，反而让模型错判。 1 针对目前直接查表的entity linking，请问有没有合适的降噪思路？ 2 我看到作者提到“知识驱动”型任务，在微观层面是对每个识别的实体判断是否需要引入知识，请问这方面有没有什么思路或者可以借鉴的前沿研究可以参考？比如早年比较火的attention机制，有没有可能引入类似selective attention的方法，来判断实体是否应该挂载知识以及挂载哪个知识，这类思路和k-bert的知识挂载方式有没有结合点？

你好，正如你所说，在entity linking中因一词多义等原因引入的噪声是一个亟待解决的问题。如你所说，使用attention机制给每个候选entity打分是一个方法，目前我们还在尝试，不久将会推出K-BERT2.0，将会比当前版本的K-BERT鲁棒性更好，欢迎关注哈。

您好，我想最近沿着您的Kbert在1.具有不同实体名的相同实体识别（目前kbert还是基于分词，字符级别上匹配实体）2.具有多关系的实体，不能主动选择插入具有帮助性的三元组两个问题上做一些改进，不知道会和您的Kbert2.0冲突吗？谢谢

autoliuweijie commented 4 years ago

你好，我发现K-bert目前的entity linking的方式比较直接，并不会对有多种含义的实体进行区别，在实际使用过程中这往往会带来噪声，特别是一些大的知识库，有高频词带低频标签的情况。比如用到过一个百科知识库里，有舒适 → 作家名这样的实体映射，也有大量一词多义的现象，单纯从word matching选择实体很容易将大量的噪声带入。在实际使用中我发现特别是inference过程，大量是因为这类噪声知识的引入，反而让模型错判。 1 针对目前直接查表的entity linking，请问有没有合适的降噪思路？ 2 我看到作者提到“知识驱动”型任务，在微观层面是对每个识别的实体判断是否需要引入知识，请问这方面有没有什么思路或者可以借鉴的前沿研究可以参考？比如早年比较火的attention机制，有没有可能引入类似selective attention的方法，来判断实体是否应该挂载知识以及挂载哪个知识，这类思路和k-bert的知识挂载方式有没有结合点？

你好，正如你所说，在entity linking中因一词多义等原因引入的噪声是一个亟待解决的问题。如你所说，使用attention机制给每个候选entity打分是一个方法，目前我们还在尝试，不久将会推出K-BERT2.0，将会比当前版本的K-BERT鲁棒性更好，欢迎关注哈。

您好，我想最近沿着您的Kbert在1.具有不同实体名的相同实体识别（目前kbert还是基于分词，字符级别上匹配实体）2.具有多关系的实体，不能主动选择插入具有帮助性的三元组两个问题上做一些改进，不知道会和您的Kbert2.0冲突吗？谢谢

不会冲突哈，就算思路接近，实现细节也会不同。欢迎一起努力将结构化知识注入到NLP模型中，一起把这个方向做的更完善。

Graduo commented 4 years ago

你好，我发现K-bert目前的entity linking的方式比较直接，并不会对有多种含义的实体进行区别，在实际使用过程中这往往会带来噪声，特别是一些大的知识库，有高频词带低频标签的情况。比如用到过一个百科知识库里，有舒适 → 作家名这样的实体映射，也有大量一词多义的现象，单纯从word matching选择实体很容易将大量的噪声带入。在实际使用中我发现特别是inference过程，大量是因为这类噪声知识的引入，反而让模型错判。 1 针对目前直接查表的entity linking，请问有没有合适的降噪思路？ 2 我看到作者提到“知识驱动”型任务，在微观层面是对每个识别的实体判断是否需要引入知识，请问这方面有没有什么思路或者可以借鉴的前沿研究可以参考？比如早年比较火的attention机制，有没有可能引入类似selective attention的方法，来判断实体是否应该挂载知识以及挂载哪个知识，这类思路和k-bert的知识挂载方式有没有结合点？

你好，正如你所说，在entity linking中因一词多义等原因引入的噪声是一个亟待解决的问题。如你所说，使用attention机制给每个候选entity打分是一个方法，目前我们还在尝试，不久将会推出K-BERT2.0，将会比当前版本的K-BERT鲁棒性更好，欢迎关注哈。

您好，我想最近沿着您的Kbert在1.具有不同实体名的相同实体识别（目前kbert还是基于分词，字符级别上匹配实体）2.具有多关系的实体，不能主动选择插入具有帮助性的三元组两个问题上做一些改进，不知道会和您的Kbert2.0冲突吗？谢谢

不会冲突哈，就算思路接近，实现细节也会不同。欢迎一起努力将结构化知识注入到NLP模型中，一起把这个方向做的更完善。

好的谢谢~

tonyqtian commented 4 years ago

你好，我发现K-bert目前的entity linking的方式比较直接，并不会对有多种含义的实体进行区别，在实际使用过程中这往往会带来噪声，特别是一些大的知识库，有高频词带低频标签的情况。比如用到过一个百科知识库里，有舒适 → 作家名这样的实体映射，也有大量一词多义的现象，单纯从word matching选择实体很容易将大量的噪声带入。在实际使用中我发现特别是inference过程，大量是因为这类噪声知识的引入，反而让模型错判。 1 针对目前直接查表的entity linking，请问有没有合适的降噪思路？ 2 我看到作者提到“知识驱动”型任务，在微观层面是对每个识别的实体判断是否需要引入知识，请问这方面有没有什么思路或者可以借鉴的前沿研究可以参考？比如早年比较火的attention机制，有没有可能引入类似selective attention的方法，来判断实体是否应该挂载知识以及挂载哪个知识，这类思路和k-bert的知识挂载方式有没有结合点？

你好，正如你所说，在entity linking中因一词多义等原因引入的噪声是一个亟待解决的问题。如你所说，使用attention机制给每个候选entity打分是一个方法，目前我们还在尝试，不久将会推出K-BERT2.0，将会比当前版本的K-BERT鲁棒性更好，欢迎关注哈。

谢谢，期待k-bert2.0