ntunlp / daga

Data Augmentation with a Generation Approach for Low-resource Tagging Tasks
MIT License
79 stars 15 forks source link

oversampling ratios #3

Open hyliush opened 3 years ago

hyliush commented 3 years ago

image 感谢作者团队的贡献

有个地方没有看懂,想请教一下,论文里只说明了抽取次数,每次的比例是多少啊?谢谢

ume-technology commented 3 years ago

老哥你复现了他的结果没,我现在复现它的结果,但是我出现了 preprocess linear sequence 数据的时候,linear 格式的数据不能生成的情况,你完成了这个脚本的过程么?我不确定是我的数据集出了问题还是哪里出了问题,我用的 conll2003 数据集, train.txt 是下图这样的,老哥你是用的这个么?如果是我的数据集错了,老哥你有正确的数据集让我看一下么? image

liulinlin90 commented 3 years ago

老哥你复现了他的结果没,我现在复现它的结果,但是我出现了 preprocess linear sequence 数据的时候,linear 格式的数据不能生成的情况,你完成了这个脚本的过程么?我不确定是我的数据集出了问题还是哪里出了问题,我用的 conll2003 数据集, train.txt 是下图这样的,老哥你是用的这个么?如果是我的数据集错了,老哥你有正确的数据集让我看一下么? image

你好,这个预处理脚本读文件的格式是一列token,一列label。可以把你的训练数据处理成这种格式,比如用命令:awk '{print $1,$4}' train.txt

liulinlin90 commented 3 years ago

image 感谢作者团队的贡献

有个地方没有看懂,想请教一下,论文里只说明了抽取次数,每次的比例是多少啊?谢谢

你好,具体的比例请参考Table11。这里每个实验中sample了1k,2k,4k gold数据来模拟低资源的情况,并用sample的数据来做数据增强生成更多的数据。为了减少augmentation的数据的噪音影响,我们把gold数据复制n次与augmentation的数据混合,以提高gold数据的比例。Table11中第一列的 gold x n中,n代表重复gold数据的次数。

hyliush commented 3 years ago

老哥你复现了他的结果没,我现在复现它的结果,但是我出现了 preprocess linear sequence 数据的时候,linear 格式的数据不能生成的情况,你完成了这个脚本的过程么?我不确定是我的数据集出了问题还是哪里出了问题,我用的 conll2003 数据集, train.txt 是下图这样的,老哥你是用的这个么?如果是我的数据集错了,老哥你有正确的数据集让我看一下么? image

不好意思啊,邮件进垃圾箱了,数据集两列,一列字符,一列标签

hyliush commented 3 years ago

image 感谢作者团队的贡献 有个地方没有看懂,想请教一下,论文里只说明了抽取次数,每次的比例是多少啊?谢谢

你好,具体的比例请参考Table11。这里每个实验中sample了1k,2k,4k gold数据来模拟低资源的情况,并用sample的数据来做数据增强生成更多的数据。为了减少augmentation的数据的噪音影响,我们把gold数据复制n次与augmentation的数据混合,以提高gold数据的比例。Table11中第一列的 gold x n中,n代表重复gold数据的次数。

好的谢谢

woshierniu commented 3 years ago

image 感谢作者团队的贡献 有个地方没有看懂,想请教一下,论文里只说明了抽取次数,每次的比例是多少啊?谢谢

你好,具体的比例请参考Table11。这里每个实验中sample了1k,2k,4k gold数据来模拟低资源的情况,并用sample的数据来做数据增强生成更多的数据。为了减少augmentation的数据的噪音影响,我们把gold数据复制n次与augmentation的数据混合,以提高gold数据的比例。Table11中第一列的 gold x n中,n代表重复gold数据的次数。

你好,看了你的解释,我还是有点不懂。实验中进行比较的时候,例如在1K情况,那么一个训练集就是1K条原始训练集,另一个训练集是1K数据复制n次与augmentation的数据混合(n*1k + augmentation)吗?