老哥有什么数据增强的trick者数据集的推荐嘛或者是提分的小trick

1JasonZhang / Q-A-matching-of-real-estate-industry

MIT License

27 stars 7 forks source link

老哥有什么数据增强的trick者数据集的推荐嘛或者是提分的小trick #3

Open BrowenYu opened 3 years ago

1JasonZhang commented 3 years ago

1.五折交叉验证+多模型融合 2.如果GPU资源够多可以使用大模型 3.可以用同义词替换、随机插值、回译方法数据增强。我用了百度api进行回译，将回译数据和原数据合并去重后，训练，测试效果确实有提高。我会上传一下合并后的数据集

BrowenYu commented 3 years ago

谢谢老哥多么融合是指预测出的结果文件进行投票嘛还是和五折交叉这样把多个模型的logits取平均然后argmax？

wentaozhu commented 3 years ago

1.五折交叉验证+多模型融合 2.如果GPU资源够多可以使用大模型 3.可以用同义词替换、随机插值、回译方法数据增强。我用了百度api进行回译，将回译数据和原数据合并去重后，训练，测试效果确实有提高。我会上传一下合并后的数据集

使用回译数据训练，模型的超参数怎么设置呢？epoch number？early stop的数目？等其他参数？谢谢！

BrowenYu commented 3 years ago

1.五折交叉验证+多模型融合 2.如果GPU资源够多可以使用大模型 3.可以用同义词替换、随机插值、回译方法数据增强。我用了百度api进行回译，将回译数据和原数据合并去重后，训练，测试效果确实有提高。我会上传一下合并后的数据集

1JasonZhang commented 3 years ago

谢谢老哥多么融合是指预测出的结果文件进行投票嘛还是和五折交叉这样把多个模型的logits取平均然后argmax？

我是用结果文件投票，同样也可以将logits取平均再argmax，这两种方法都可以

1JasonZhang commented 3 years ago

1.五折交叉验证+多模型融合 2.如果GPU资源够多可以使用大模型 3.可以用同义词替换、随机插值、回译方法数据增强。我用了百度api进行回译，将回译数据和原数据合并去重后，训练，测试效果确实有提高。我会上传一下合并后的数据集

使用回译数据训练，模型的超参数怎么设置呢？epoch number？early stop的数目？等其他参数？谢谢！我用的时候还是原来训练用的bert的参数，没有针对回译的数据集详细调参

1JasonZhang / Q-A-matching-of-real-estate-industry

老哥有什么数据增强的trick者数据集的推荐嘛 或者是提分的小trick #3

老哥有什么数据增强的trick者数据集的推荐嘛或者是提分的小trick #3