关于预训练的数据量

Tribleave / SCAPT-ABSA

Code for EMNLP 2021 paper: "Learning Implicit Sentiment in Aspect-based Sentiment Analysis with Supervised Contrastive Pre-Training"

MIT License

92 stars 21 forks source link

关于预训练的数据量 #10

Open kkk-an opened 2 years ago

kkk-an commented 2 years ago

您好，感谢您的工作带给我非常多的思考。因为想复现一下，所以想知道你在pre-training的时候，使用了多少的Amazon和Yelp数据呢？文章说manually check a small portion，但是网盘提供的分别是一百万和四百万条数据，请问您在预训练的时候使用部分可以发布一下吗？另外关于验证集的问题，好像您的代码里面并没有出现验证集？而是直接用的测试集去选取的模型吗？如果是这样的话是否欠妥？

cjj-sunshine commented 2 years ago

您好，感谢您的工作带给我非常多的思考。因为想复现一下，所以想知道你在pre-training的时候，使用了多少的Amazon和Yelp数据呢？文章说manually check a small portion，但是网盘提供的分别是一百万和四百万条数据，请问您在预训练的时候使用部分可以发布一下吗？另外关于验证集的问题，好像您的代码里面并没有出现验证集？而是直接用的测试集去选取的模型吗？如果是这样的话是否欠妥？

你好，请问Amazon和Yelp的数据在哪个网盘中存放着呢，怎么获得这些数据呢？

kkk-an commented 2 years ago

您好，感谢您的工作带给我非常多的思考。因为想复现一下，所以想知道你在pre-training的时候，使用了多少的Amazon和Yelp数据呢？文章说manually check a small portion，但是网盘提供的分别是一百万和四百万条数据，请问您在预训练的时候使用部分可以发布一下吗？另外关于验证集的问题，好像您的代码里面并没有出现验证集？而是直接用的测试集去选取的模型吗？如果是这样的话是否欠妥？

你好，请问Amazon和Yelp的数据在哪个网盘中存放着呢，怎么获得这些数据呢？

作者在这一部分Data Preparation & Preprocessing给了网盘的链接和提取密码

cjj-sunshine commented 2 years ago

您好，感谢您的工作带给我非常多的思考。因为想复现一下，所以想知道你在pre-training的时候，使用了多少的Amazon和Yelp数据呢？文章说manually check a small portion，但是网盘提供的分别是一百万和四百万条数据，请问您在预训练的时候使用部分可以发布一下吗？另外关于验证集的问题，好像您的代码里面并没有出现验证集？而是直接用的测试集去选取的模型吗？如果是这样的话是否欠妥？

你好，请问Amazon和Yelp的数据在哪个网盘中存放着呢，怎么获得这些数据呢？

作者在这一部分Data Preparation & Preprocessing给了网盘的链接和提取密码

好的，谢谢！看到了