中文数据集 - Githubissues

chiayewken / Span-ASTE

Code Implementation of "Learning Span-Level Interactions for Aspect Sentiment Triplet Extraction".

MIT License

169 stars 45 forks source link

中文数据集 #22

Open lzf00 opened 2 years ago

lzf00 commented 2 years ago

你好，请问做过中文数据集的实验吗，我想用自己的中文金融数据对模型做测试，不知道能否适用？我的想法是bert模型替换为Chinese—bert ，然后数据是这样的：【千方科技：重庆蚂蚁消费金融有限公司开业】千方科技公告，公司近日获悉，中国银行保险监督管理委员会重庆监管局下发《重庆银保监局关于重庆蚂蚁消费金融有限公司开业的批复》，批准重庆蚂蚁消费金融有限公司开业。2021年6月4日，蚂蚁消金在重庆正式成立。公司参与蚂蚁消金的设立，出资金额为人民币5.608亿元。#### #### ####[([1, 4], [124, 132], 'POS')]

chiayewken commented 2 years ago

你好，换Chinese- BERT 我没试过，你可以试一试。对于输入格式，数据处理要求每个单词之间应该有一个空格

lzf00 commented 2 years ago

你好，换Chinese- BERT 我没试过，你可以试一试。对于输入格式，数据处理要求每个单词之间应该有一个空格

你好，我用自己的中文数据集实现了模型的训练，9个epoch，但是不知道为什么关系和实体的F1分数都为0；第二个问题是训练完模型，我的中文数据集会被改为unicode编码（我认为是读入的编码问题），但是你给的英文例子不会被改变，当我自己用脚本把数据集的unicode码变为中文时，运行验证脚本时，还是会被变为unicode，我不知道如何改；并且验证的时候会读取数据失败，显示数据集空（可能是第二个问题引起的错误）

chiayewken commented 2 years ago

不好意思，我没有试过中文数据，你能提供一些数据样本吗？

lzf00 commented 2 years ago

不好意思，我没有试过中文数据，你能提供一些数据样本吗？

好的，发到你的github主页显示的邮箱了

sun211-alt commented 1 year ago

你好，请问用中文数据效果好吗？

KouRouFly commented 10 months ago

您好，问题解决了吗