fastnlp / fastNLP

fastNLP: A Modularized and Extensible NLP Framework. Currently still in incubation.
https://gitee.com/fastnlp/fastNLP
Apache License 2.0
3.06k stars 450 forks source link

关于QuoraLoader的使用问题 #283

Closed jwc19890114 closed 4 years ago

jwc19890114 commented 4 years ago

你好,这段时间在做文本匹配的任务,中文使用的是项目教程中提供的CNXNLIBertPipe,在英文部分想试一下Quora的那个项目。但是我把kaggle上数据集下载下来解压之后,使用项目中的QuoraLoader进行处理的时候报错。原因是目前kaggle的数据集字段和项目里面的不匹配。可能需要你们更新QuoraLoader部分的代码。

我自己修改了该部分的代码,仅在train数据集中可以使用。。。 所以有两个请求:

  1. 可以提供一个QuoraLoader能够处理的数据集么?或者是标准数据结构
  2. 现在想做一个英文文本匹配的通用模型,在目前fastNLP中已有的数据集里面(除了Quora),你们推荐哪个呢?

感谢你们提供的这个库

xuyige commented 4 years ago

你好,我们的QuoraLoader能处理的数据格式见https://github.com/fastnlp/fastNLP/tree/master/test/data_for_tests/io/Quora 英文文本匹配的数据集的话目前fastNLP支持SNLI,以及GLUE benchmark里面的MNLI、QNLI、RTE

jwc19890114 commented 4 years ago

你好,我们的QuoraLoader能处理的数据格式见https://github.com/fastnlp/fastNLP/tree/master/test/data_for_tests/io/Quora 英文文本匹配的数据集的话目前fastNLP支持SNLI,以及GLUE benchmark里面的MNLI、QNLI、RTE

下午试了一下RTE的结果,使用Bert预训练模型得到的结果正确率只有0.68,请问你们项目组有没有标准的baseline来参考一下呀

xuyige commented 4 years ago

你好,我们的QuoraLoader能处理的数据格式见https://github.com/fastnlp/fastNLP/tree/master/test/data_for_tests/io/Quora 英文文本匹配的数据集的话目前fastNLP支持SNLI,以及GLUE benchmark里面的MNLI、QNLI、RTE

下午试了一下RTE的结果,使用Bert预训练模型得到的结果正确率只有0.68,请问你们项目组有没有标准的baseline来参考一下呀

BERT论文在RTE测试集上面的结果大致就是BERT base 66.4,我们在dev集上面的结果也是差不多在66-70之间。这个数据集比较小可能方差会比较大

jwc19890114 commented 4 years ago

你好,我们的QuoraLoader能处理的数据格式见https://github.com/fastnlp/fastNLP/tree/master/test/data_for_tests/io/Quora 英文文本匹配的数据集的话目前fastNLP支持SNLI,以及GLUE benchmark里面的MNLI、QNLI、RTE

下午试了一下RTE的结果,使用Bert预训练模型得到的结果正确率只有0.68,请问你们项目组有没有标准的baseline来参考一下呀

BERT论文在RTE测试集上面的结果大致就是BERT base 66.4,我们在dev集上面的结果也是差不多在66-70之间。这个数据集比较小可能方差会比较大

哦哦,原来如此,我还以为是我操作的地方有问题了,感谢感谢,我再试试Quora的数据集,真的谢谢