ntunlp / daga

Data Augmentation with a Generation Approach for Low-resource Tagging Tasks
MIT License
79 stars 15 forks source link

关于代码实验的一些问题 #7

Open woshierniu opened 3 years ago

woshierniu commented 3 years ago

你好,感谢团队大大的贡献。关于代码实验我有些问题,希望能得到解答o(╥﹏╥)o 1、训练语言模型时候,验证集是原数据完整的验证集吗? 2、语言模型生成数据时,新的词不超过上次的生成99%在代码里是不是没有体现? 3、NER实验中,例如在1K的情况下,一个训练集就是1K条原始训练集,另一个训练集是1K数据复制n次与augmentation的数据混合(即n*1k + augmentation大小)吗?还有NER实验的验证集和测试集都是原数据完整的验证、测试数据集吗?

Bosheng2020 commented 3 years ago

您好!不好意思,最近比较忙,没有及时回复。

  1. 我们当时用的验证集是原数据完整的验证集。如果从low resource的角度 用部分验证集也是可以的。
  2. 99%这个在代码没有体现可以自己写个脚本筛选。
  3. 是的。一个训练集就是1K条原始训练集,另一个训练集是1K数据复制n次与augmentation的数据混合(即n*1k + augmentation大小)NER实验的验证集和测试集都是原数据完整的验证、测试数据集。如果从low resource的角度 用部分验证集也是可以的。