关于QuoraLoader的使用问题

fastnlp / fastNLP

fastNLP: A Modularized and Extensible NLP Framework. Currently still in incubation.

https://gitee.com/fastnlp/fastNLP

Apache License 2.0

3.06k stars 450 forks source link

关于QuoraLoader的使用问题 #283

Closed jwc19890114 closed 4 years ago

jwc19890114 commented 4 years ago

你好，这段时间在做文本匹配的任务，中文使用的是项目教程中提供的CNXNLIBertPipe，在英文部分想试一下Quora的那个项目。但是我把kaggle上数据集下载下来解压之后，使用项目中的QuoraLoader进行处理的时候报错。原因是目前kaggle的数据集字段和项目里面的不匹配。可能需要你们更新QuoraLoader部分的代码。

我自己修改了该部分的代码，仅在train数据集中可以使用。。。所以有两个请求：

可以提供一个QuoraLoader能够处理的数据集么？或者是标准数据结构
现在想做一个英文文本匹配的通用模型，在目前fastNLP中已有的数据集里面（除了Quora），你们推荐哪个呢？

感谢你们提供的这个库

xuyige commented 4 years ago

你好，我们的QuoraLoader能处理的数据格式见https://github.com/fastnlp/fastNLP/tree/master/test/data_for_tests/io/Quora 英文文本匹配的数据集的话目前fastNLP支持SNLI，以及GLUE benchmark里面的MNLI、QNLI、RTE

jwc19890114 commented 4 years ago

你好，我们的QuoraLoader能处理的数据格式见https://github.com/fastnlp/fastNLP/tree/master/test/data_for_tests/io/Quora 英文文本匹配的数据集的话目前fastNLP支持SNLI，以及GLUE benchmark里面的MNLI、QNLI、RTE

下午试了一下RTE的结果，使用Bert预训练模型得到的结果正确率只有0.68，请问你们项目组有没有标准的baseline来参考一下呀

xuyige commented 4 years ago

你好，我们的QuoraLoader能处理的数据格式见https://github.com/fastnlp/fastNLP/tree/master/test/data_for_tests/io/Quora 英文文本匹配的数据集的话目前fastNLP支持SNLI，以及GLUE benchmark里面的MNLI、QNLI、RTE

下午试了一下RTE的结果，使用Bert预训练模型得到的结果正确率只有0.68，请问你们项目组有没有标准的baseline来参考一下呀

BERT论文在RTE测试集上面的结果大致就是BERT base 66.4，我们在dev集上面的结果也是差不多在66-70之间。这个数据集比较小可能方差会比较大

jwc19890114 commented 4 years ago

你好，我们的QuoraLoader能处理的数据格式见https://github.com/fastnlp/fastNLP/tree/master/test/data_for_tests/io/Quora 英文文本匹配的数据集的话目前fastNLP支持SNLI，以及GLUE benchmark里面的MNLI、QNLI、RTE

下午试了一下RTE的结果，使用Bert预训练模型得到的结果正确率只有0.68，请问你们项目组有没有标准的baseline来参考一下呀

BERT论文在RTE测试集上面的结果大致就是BERT base 66.4，我们在dev集上面的结果也是差不多在66-70之间。这个数据集比较小可能方差会比较大

哦哦，原来如此，我还以为是我操作的地方有问题了，感谢感谢，我再试试Quora的数据集，真的谢谢