关于Language Model训练结果的一些问题

18438602970 commented 3 years ago

首先感谢作者团队的贡献！作者的思路给我了很大的启发，在复现过程中发现一些问题： 1、一个带有标签的低频单词被unk遮掉后，形成的【tag，unk】会不会影响最终的整体效果； 2、单纯了训练了一下Language Model看结果我不知道是好是坏，本来是CV，忽然NLP可能不太理解。所以期待作者能帮我解答一下

。

18438602970 commented 3 years ago

QQ图片20211122201351 这个emding文件是自动生成么，还是需要我自己训练一套embeding QQ图片20211122201710 这个是我最后生成的out文件，这个文件怎么被利用呢。

Bosheng2020 commented 2 years ago

非常感谢您的问题。

带标签的低频次替换成不影响生成带标签数据的效果
语言模型可以用perplexity这个指标去衡量。In natural language processing, perplexity is a way of evaluating language models. A language model is a probability distribution over entire sentences or texts.
LSTM框架的NER tagger需要用预训练好的word embedding 如果你用BERT之类的预训练模型的话就不用另外加载embedding了。
你生成的文件，可以使用我们在tools里面的脚本用line2col.py这个文件把数据转换成NER训练数据的格式。具体的筛选步骤请参考我们的论文。另外，在我们ACL的论文里面发现，可以用NER模型对生成数据进行筛选。可以参考这个文章。https://aclanthology.org/2021.acl-long.453/

ntunlp / daga

关于Language Model训练结果的一些问题 #10