关于代码实验的一些问题

ntunlp / daga

Data Augmentation with a Generation Approach for Low-resource Tagging Tasks

MIT License

79 stars 15 forks source link

你好，感谢团队大大的贡献。关于代码实验我有些问题，希望能得到解答o(╥﹏╥)o 1、训练语言模型时候，验证集是原数据完整的验证集吗？ 2、语言模型生成数据时，新的词不超过上次的生成99%在代码里是不是没有体现？ 3、NER实验中，例如在1K的情况下，一个训练集就是1K条原始训练集，另一个训练集是1K数据复制n次与augmentation的数据混合（即n*1k + augmentation大小）吗？还有NER实验的验证集和测试集都是原数据完整的验证、测试数据集吗？

ntunlp / daga

关于代码实验的一些问题 #7