yangheng95 / PyABSA

Sentiment Analysis, Text Classification, Text Augmentation, Text Adversarial defense, etc.;
https://pyabsa.readthedocs.io
MIT License
902 stars 153 forks source link

关于使用Chinese目录下的中文数据集 #25

Closed LangDaoAI closed 3 years ago

LangDaoAI commented 3 years ago

您好, 如果使用使用Chinese目录下的中文数据集, 程序要修改吧, 比如spacy models是不是要修改为加载zh_core_web_sm等?

感谢!

yangheng95 commented 3 years ago

如果是使用基于语法树距离的LCF则需要修改代码,这也是后面的工作。我最近在重构代码,现有的预发布的代码近期或者后面会更新,但由于我一个人精力有限,没有时间逐一测试代码验证模型,所以关于中文的相关代码可能不会及时更新,如果可能的话欢迎您提交PR帮助我改进代码,谢谢!

LangDaoAI commented 3 years ago

如果是使用基于语法树距离的LCF则需要修改代码,这也是后面的工作。我最近在重构代码,现有的预发布的代码近期或者后面会更新,但由于我一个人精力有限,没有时间逐一测试代码验证模型,所以关于中文的相关代码可能不会及时更新,如果可能的话欢迎您提交PR帮助我改进代码,谢谢!

感谢回复, 就是说目前pyabsa还没有在中文数据集上做过测试,不知道理解是否正确?

yangheng95 commented 3 years ago

是的,我是边重构边测试,进度有限

LangDaoAI commented 3 years ago

是的,我是边重构边测试,进度有限

理解, 想进一步确认一下, 这些预训练模型都是在英文语料库上做的训练, 所以中文场景应该不能迁移吧, 需要重训练, 还是说模型本身可以迁移?

yangheng95 commented 3 years ago

你指的是提供的训练好的模型吗?提供的训练用到了提供的所有数据集的数据,包括中文,理论上可以用于中文APC(LCFS模型不推荐,代码需要改)

yangheng95 commented 3 years ago

是的,我是边重构边测试,进度有限

理解, 想进一步确认一下, 这些预训练模型都是在英文语料库上做的训练, 所以中文场景应该不能迁移吧, 需要重训练, 还是说模型本身可以迁移?

但是我还没有测试过中文的方面情感推理

LangDaoAI commented 3 years ago

你指的是提供的训练好的模型吗?提供的训练用到了提供的所有数据集的数据,包括中文,理论上可以用于中文APC(LCFS模型不推荐,代码需要改)

有看到您的paper中, image

四个中文数据集的LCF得出了ATE/APC的F1和ACC, 所以不太理解为什么您说的理论上可以用于中文APC?还请帮忙解惑一下,谢谢!

yangheng95 commented 3 years ago

LCF_ATEPC属于多任务学习模型,没有使用语法树和Spacy。这个库提供两种模型,一种是极性分类模型APC,一种是方面抽取与情感分析多任务学习模型。不过LCF-ATEPC的代码移植改动比较大,中文数据集同样也没有测试。如果你想获取论文源码请见LCF-ATEPC仓库

LangDaoAI commented 3 years ago

LCF_ATEPC属于多任务学习模型,没有使用语法树和Spacy。这个库提供两种模型,一种是极性分类模型APC,一种是方面抽取与情感分析多任务学习模型。不过LCF-ATEPC的代码移植改动比较大,中文数据集同样也没有测试。如果你想获取论文源码请见LCF-ATEPC仓库

好的, 我先看一下

LangDaoAI commented 3 years ago

我已经看到了你把APC中文预训练模型(使用pretrained_bert_models = bert-base-chinese )已经上传到了 google drive 0.5-beta中了, 我可以测试一下中文APC, ATEPC目前还没有看到, 想问一下, 使用LCF-ATEPC代码仓库,我自己拿自己的数据训练ATEPC中文预训练模型的话, 有没有详细的手顺。

yangheng95 commented 3 years ago

我已经看到了你把APC中文预训练模型(使用pretrained_bert_models = bert-base-chinese )已经上传到了 google drive 0.5-beta中了, 我可以测试一下中文APC, ATEPC目前还没有看到, 想问一下, 使用LCF-ATEPC代码仓库,我自己拿自己的数据训练ATEPC中文预训练模型的话, 有没有详细的手顺。

我只测试了APC,中文方面抽取还没有测试。LCF-ATEPC的代码为了减少运行内存一些细节改了一点,我很久没有维护了,所以还没有详细的使用方法,我最近可能不会高频更新了,因为手上来了任务,你可以自己先尝试,有问题再联系我。

yangheng95 commented 3 years ago

我已经看到了你把APC中文预训练模型(使用pretrained_bert_models = bert-base-chinese )已经上传到了 google drive 0.5-beta中了, 我可以测试一下中文APC, ATEPC目前还没有看到, 想问一下, 使用LCF-ATEPC代码仓库,我自己拿自己的数据训练ATEPC中文预训练模型的话, 有没有详细的手顺。

另外,中文还不支持LCFS-BERT类的模型,因为spacy的代码没有来得及review

LangDaoAI commented 3 years ago

我已经看到了你把APC中文预训练模型(使用pretrained_bert_models = bert-base-chinese )已经上传到了 google drive 0.5-beta中了, 我可以测试一下中文APC, ATEPC目前还没有看到, 想问一下, 使用LCF-ATEPC代码仓库,我自己拿自己的数据训练ATEPC中文预训练模型的话, 有没有详细的手顺。

我只测试了APC,中文方面抽取还没有测试。LCF-ATEPC的代码为了减少运行内存一些细节改了一点,我很久没有维护了,所以还没有详细的使用方法,我最近可能不会高频更新了,因为手上来了任务,你可以自己先尝试,有问题再联系我。

我正在基于你的working准备尝试, 有一个问题还要问一下, pyabsa中的apc以及atepc两个目录下都有training,也就是训练, 这个training与LCF-ATEPC仓库中training是啥关系, 不太理解

LangDaoAI commented 3 years ago

我已经看到了你把APC中文预训练模型(使用pretrained_bert_models = bert-base-chinese )已经上传到了 google drive 0.5-beta中了, 我可以测试一下中文APC, ATEPC目前还没有看到, 想问一下, 使用LCF-ATEPC代码仓库,我自己拿自己的数据训练ATEPC中文预训练模型的话, 有没有详细的手顺。

另外,中文还不支持LCFS-BERT类的模型,因为spacy的代码没有来得及review

好的,我记下来

yangheng95 commented 3 years ago

我已经看到了你把APC中文预训练模型(使用pretrained_bert_models = bert-base-chinese )已经上传到了 google drive 0.5-beta中了, 我可以测试一下中文APC, ATEPC目前还没有看到, 想问一下, 使用LCF-ATEPC代码仓库,我自己拿自己的数据训练ATEPC中文预训练模型的话, 有没有详细的手顺。

我只测试了APC,中文方面抽取还没有测试。LCF-ATEPC的代码为了减少运行内存一些细节改了一点,我很久没有维护了,所以还没有详细的使用方法,我最近可能不会高频更新了,因为手上来了任务,你可以自己先尝试,有问题再联系我。

我正在基于你的working准备尝试, 有一个问题还要问一下, pyabsa中的apc以及atepc两个目录下都有training,也就是训练, 这个training与LCF-ATEPC仓库中training是啥关系, 不太理解

pyabsa可以理解为是对LCF-ATEPC的封装,当前版本大部分的training代码跟LCF-ATEPC都是相同/相似的,不同的是为了方便使用所以进行了必要的模块化改动,比如超参的初始移到了pyabsa.functional,等等。而LCF-ATEPC里面包含训练用到的完整代码。

LangDaoAI commented 3 years ago

我已经看到了你把APC中文预训练模型(使用pretrained_bert_models = bert-base-chinese )已经上传到了 google drive 0.5-beta中了, 我可以测试一下中文APC, ATEPC目前还没有看到, 想问一下, 使用LCF-ATEPC代码仓库,我自己拿自己的数据训练ATEPC中文预训练模型的话, 有没有详细的手顺。

我只测试了APC,中文方面抽取还没有测试。LCF-ATEPC的代码为了减少运行内存一些细节改了一点,我很久没有维护了,所以还没有详细的使用方法,我最近可能不会高频更新了,因为手上来了任务,你可以自己先尝试,有问题再联系我。

我正在基于你的working准备尝试, 有一个问题还要问一下, pyabsa中的apc以及atepc两个目录下都有training,也就是训练, 这个training与LCF-ATEPC仓库中training是啥关系, 不太理解

pyabsa可以理解为是对LCF-ATEPC的封装,当前版本大部分的training代码跟LCF-ATEPC都是相同/相似的,不同的是为了方便使用所以进行了必要的模块化改动,比如超参的初始移到了pyabsa.functional,等等。而LCF-ATEPC里面包含训练用到的完整代码。

明白了,感谢!我先开始尝试,有问题再咨询你

yangheng95 commented 3 years ago

我已经看到了你把APC中文预训练模型(使用pretrained_bert_models = bert-base-chinese )已经上传到了 google drive 0.5-beta中了, 我可以测试一下中文APC, ATEPC目前还没有看到, 想问一下, 使用LCF-ATEPC代码仓库,我自己拿自己的数据训练ATEPC中文预训练模型的话, 有没有详细的手顺。

我只测试了APC,中文方面抽取还没有测试。LCF-ATEPC的代码为了减少运行内存一些细节改了一点,我很久没有维护了,所以还没有详细的使用方法,我最近可能不会高频更新了,因为手上来了任务,你可以自己先尝试,有问题再联系我。

我正在基于你的working准备尝试, 有一个问题还要问一下, pyabsa中的apc以及atepc两个目录下都有training,也就是训练, 这个training与LCF-ATEPC仓库中training是啥关系, 不太理解

pyabsa可以理解为是对LCF-ATEPC的封装,当前版本大部分的training代码跟LCF-ATEPC都是相同/相似的,不同的是为了方便使用所以进行了必要的模块化改动,比如超参的初始移到了pyabsa.functional,等等。而LCF-ATEPC里面包含训练用到的完整代码。

明白了,感谢!我先开始尝试,有问题再咨询你

完整的中文支持已经发布,如果可能请更新版本帮助我测试,十分感谢

LangDaoAI commented 3 years ago

我已经看到了你把APC中文预训练模型(使用pretrained_bert_models = bert-base-chinese )已经上传到了 google drive 0.5-beta中了, 我可以测试一下中文APC, ATEPC目前还没有看到, 想问一下, 使用LCF-ATEPC代码仓库,我自己拿自己的数据训练ATEPC中文预训练模型的话, 有没有详细的手顺。

我只测试了APC,中文方面抽取还没有测试。LCF-ATEPC的代码为了减少运行内存一些细节改了一点,我很久没有维护了,所以还没有详细的使用方法,我最近可能不会高频更新了,因为手上来了任务,你可以自己先尝试,有问题再联系我。

我正在基于你的working准备尝试, 有一个问题还要问一下, pyabsa中的apc以及atepc两个目录下都有training,也就是训练, 这个training与LCF-ATEPC仓库中training是啥关系, 不太理解

pyabsa可以理解为是对LCF-ATEPC的封装,当前版本大部分的training代码跟LCF-ATEPC都是相同/相似的,不同的是为了方便使用所以进行了必要的模块化改动,比如超参的初始移到了pyabsa.functional,等等。而LCF-ATEPC里面包含训练用到的完整代码。

明白了,感谢!我先开始尝试,有问题再咨询你

完整的中文支持已经发布,如果可能请更新版本帮助我测试,十分感谢

OK, 感谢, 我马上更新版本

LangDaoAI commented 3 years ago

另外,我想问一下, 我在laptop上用CPU想尝试训练一下, 主要GPU太匮乏了, image

有没有什么好的建议(我已经按照你说的OOM的建议修改了一下配置,但是还是出现上面问题),或者就是这个根本没法在laptop上CPU训练?

yangheng95 commented 3 years ago

支持,默认自动选择CPU和GPU,这个错误是系统内存不足导致的。

yangheng95 commented 3 years ago

可以尝试读取我训练的模型进行推理

LangDaoAI commented 3 years ago

可以尝试读取我训练的模型进行推理

我open 了一个问题,请看一下