ntunlp / daga

Data Augmentation with a Generation Approach for Low-resource Tagging Tasks
MIT License
79 stars 15 forks source link

关于Language Model训练结果的一些问题 #10

Open 18438602970 opened 2 years ago

18438602970 commented 2 years ago

首先感谢作者团队的贡献!作者的思路给我了很大的启发,在复现过程中发现一些问题: 1、一个带有标签的低频单词被unk遮掉后,形成的【tag,unk】会不会影响最终的整体效果; 2、单纯了训练了一下Language Model看结果我不知道是好是坏,本来是CV,忽然NLP可能不太理解。所以期待作者能帮我解答一下

微信图片_20211122133215

18438602970 commented 2 years ago

QQ图片20211122201351 这个emding文件是自动生成么,还是需要我自己训练一套embeding QQ图片20211122201710 这个是我最后生成的out文件,这个文件怎么被利用呢。

Bosheng2020 commented 2 years ago

非常感谢您的问题。

  1. 带标签的低频次替换成不影响生成带标签数据的效果
  2. 语言模型可以用perplexity这个指标去衡量。In natural language processing, perplexity is a way of evaluating language models. A language model is a probability distribution over entire sentences or texts.
  3. LSTM框架的NER tagger需要用预训练好的word embedding 如果你用BERT之类的预训练模型的话就不用另外加载embedding了。
  4. 你生成的文件,可以使用我们在tools里面的脚本 用line2col.py这个文件把数据转换成NER训练数据的格式。具体的筛选步骤请参考我们的论文。另外,在我们ACL的论文里面发现,可以用NER模型对生成数据进行筛选。可以参考这个文章。https://aclanthology.org/2021.acl-long.453/