1JasonZhang / Q-A-matching-of-real-estate-industry

MIT License
27 stars 7 forks source link

老哥有什么数据增强的trick者数据集的推荐嘛 或者是提分的小trick #3

Open BrowenYu opened 3 years ago

1JasonZhang commented 3 years ago

1.五折交叉验证+多模型融合 2.如果GPU资源够多可以使用大模型 3.可以用同义词替换、随机插值、回译方法数据增强。 我用了百度api进行回译,将回译数据和原数据合并去重后,训练,测试效果确实有提高。我会上传一下合并后的数据集

BrowenYu commented 3 years ago

谢谢老哥 多么融合是指预测出的结果文件 进行投票嘛 还是和五折交叉这样把多个模型的logits取平均 然后argmax?

wentaozhu commented 3 years ago

1.五折交叉验证+多模型融合 2.如果GPU资源够多可以使用大模型 3.可以用同义词替换、随机插值、回译方法数据增强。 我用了百度api进行回译,将回译数据和原数据合并去重后,训练,测试效果确实有提高。我会上传一下合并后的数据集

使用回译数据训练,模型的超参数怎么设置呢?epoch number?early stop的数目?等其他参数?谢谢!

BrowenYu commented 3 years ago

1.五折交叉验证+多模型融合 2.如果GPU资源够多可以使用大模型 3.可以用同义词替换、随机插值、回译方法数据增强。 我用了百度api进行回译,将回译数据和原数据合并去重后,训练,测试效果确实有提高。我会上传一下合并后的数据集

1JasonZhang commented 3 years ago

谢谢老哥 多么融合是指预测出的结果文件 进行投票嘛 还是和五折交叉这样把多个模型的logits取平均 然后argmax?

我是用结果文件投票,同样也可以将logits取平均再argmax,这两种方法都可以

1JasonZhang commented 3 years ago

1.五折交叉验证+多模型融合 2.如果GPU资源够多可以使用大模型 3.可以用同义词替换、随机插值、回译方法数据增强。 我用了百度api进行回译,将回译数据和原数据合并去重后,训练,测试效果确实有提高。我会上传一下合并后的数据集

使用回译数据训练,模型的超参数怎么设置呢?epoch number?early stop的数目?等其他参数?谢谢! 我用的时候还是原来训练用的bert的参数,没有针对回译的数据集详细调参