language model一些问题

ntunlp / daga

Data Augmentation with a Generation Approach for Low-resource Tagging Tasks

MIT License

79 stars 15 forks source link

language model一些问题 #11

Open hmwang97414 opened 2 years ago

hmwang97414 commented 2 years ago

你好，看了之前的issue，您说一个训练集是1k原始数据，另一个训练集是1k*n+augment混合的结果我有一个疑问，就是在gengrate.py中，指定了每次生成的num_sentence ，那么如何确定augment的数据与原始数据的比例呢，比如原始训练集是1k,需要augment多少数据进行混合，才算比较合理呢

Bosheng2020 commented 2 years ago

您好谢谢您的问题。在我们的paper里面有提到oversample ratio的讨论您可以参考一下。也可以根据自己的实际情况跑跑实验。