ntunlp / daga

Data Augmentation with a Generation Approach for Low-resource Tagging Tasks
MIT License
79 stars 15 forks source link

language model一些问题 #11

Open hmwang97414 opened 2 years ago

hmwang97414 commented 2 years ago

你好,看了之前的issue,您说一个训练集是1k原始数据,另一个训练集是1k*n+augment混合的结果 我有一个疑问,就是在gengrate.py中,指定了每次生成的num_sentence ,那么如何确定augment的数据与原始数据的比例呢,比如原始训练集是1k,需要augment多少数据进行混合,才算比较合理呢

Bosheng2020 commented 2 years ago

您好 谢谢您的问题。在我们的paper里面有提到oversample ratio的讨论 您可以参考一下。也可以根据自己的实际情况跑跑实验。