[Call for Contribution] Datasets for PaddleNLP（欢迎高质量数据集接入飞桨PaddleNLP ）

mawenjie8731 commented 3 years ago

1. 目标

PaddleNLP作为飞桨自然语言处理核心库，内置了从数据集、数据处理、到组网建模一系列API，深度适配飞桨新版框架动态图开发模式，旨在为飞桨开发者提升文本领域建模效率，提供基于Paddle 2.0的NLP领域最佳实践。

数据集，可以说是深度学习任务第一站，是推动自然语言处理技术进步的基石。，高质量数据集是模型调优的基础。目前，PaddleNLP中已内置了多个数据集，覆盖信息抽取、分类、匹配、生成到问答、对话、翻译等多个场景。此外，还内置了简洁易用的数据处理API，高效完成NLP任务数据处理通用流程。

我们热切欢迎高质量数据集接入PaddleNLP，在此呼吁广大的飞桨开发者来一起共建我们的数据集，努力为用户提供更加便捷优质的资源，共同打造一条深度学习高速公路。

2. 数据清单

目前的许多技术仅关注模型在单一数据集上的效果，然而自然语言处理技术在大规模产业化的应用中，面临着多领域、多场景等诸多挑战。千言项目（https://www.luge.ai/）旨在提供更加全面的数据集合以应对这些挑战，期望从准确性、泛化性和鲁棒性等多角度对模型效果进行综合评价。

本次，我们计划将如下千言数据集接入PaddleNLP。大家可以从这个列表中选择自己想要进行贡献的数据集接入PaddleNLP，如果您有不错的数据集，也欢迎与我们联系。

任务	数据集	数据集下载地址	接入情况
句子级情感分类	ChnSentiCorp	https://dataset-bj.cdn.bcebos.com/qianyan/ChnSentiCorp.zip	已存在
	NLPCC14-SC	https://dataset-bj.cdn.bcebos.com/qianyan/NLPCC14-SC.zip
评价对象集情感分类	SE-ABSA16_PHNS	https://dataset-bj.cdn.bcebos.com/qianyan/SE-ABSA16_PHNS.zip	已存在
	SE-ABSA16_CAME	https://dataset-bj.cdn.bcebos.com/qianyan/SE-ABSA16_CAME.zip
观点抽取	COTE-BD	https://dataset-bj.cdn.bcebos.com/qianyan/COTE-BD.zip
	COTE-MFW	https://dataset-bj.cdn.bcebos.com/qianyan/COTE-MFW.zip
	COTE-DP	https://dataset-bj.cdn.bcebos.com/qianyan/COTE-DP.zip	已存在
鲁棒性	DuReader_robust	https://dataset-bj.cdn.bcebos.com/qianyan/dureader_robust-data.tar.gz	已存在
是非观点问答	DuReader_yesno	https://dataset-bj.cdn.bcebos.com/qianyan/dureader_yesno-data.tar.gz	已存在
主动知识对话	DuConv	https://dataset-bj.cdn.bcebos.com/qianyan/duconv-qianyan.zip	已存在
文本相似度	LCQMC	https://dataset-bj.cdn.bcebos.com/qianyan/lcqmc.zip	已存在
	BQ Corpus	https://dataset-bj.cdn.bcebos.com/qianyan/bq_corpus.zip
	PAWS-X(中文)	https://dataset-bj.cdn.bcebos.com/qianyan/paws-x-zh.zip
关系抽取	DuIE2.0	https://dataset-bj.cdn.bcebos.com/qianyan/DuIE_2_0.zip
事件抽取	DuEE1.0	https://dataset-bj.cdn.bcebos.com/qianyan/DuEE_1_0.zip
实体链指	DuEL 2.0	https://dataset-bj.cdn.bcebos.com/qianyan/DuEL2.0.

3. 贡献指南

3.1贡献数据集流程

贡献流程请参考：贡献数据集

参照PaddleNLP已合入数据集：已合入数据集

3.2 数据集认领

可以在上面提供的列表中进行数据集选择（已存在数据集不需要认领），并将确定的数据集名称回复到本Issue中，方便他人同步知晓已开展的项目，避免重复选择。
认领后新建一个Issue，标题（以NLPCC14-SC为例）：[Dataset Contrib] NLPCC14-SC For Sentiment Classification

3.3代码文件上传

写好的文档通过向https://github.com/PaddlePaddle/PaddleNLP/tree/develop/paddlenlp/datasets仓库提交Pull Request的方式来进行数据集文件的上传。
对提交好的PR需指定Reviewer（@smallv0221）进行内容和代码的评审，如果没有问题的话，具有Merge权限的同学就会合入到PaddleNLP repo，您贡献的数据集就可以供其他人使用啦。

3.4 原则

代码封装得当，易读性好，变量/类/函数命名体现其含义。

注释清晰，另外需要将贡献者以如下形式体现在代码注释中：

class ChnSentiCorp(DatasetBuilder):
  """
  Dataset_name (by Contributors_name at company/university)
  """

  URL = "https://bj.bcebos.com/paddlehub-dataset/chnsenticorp.tar.gz"
  MD5 = "fbb3217aeac76a2840d2d5cd19688b07"
  META_INFO = collections.namedtuple('META_INFO', ('file', 'md5'))

4. 还有不清楚的怎么办？

欢迎大家随时在这个Issue下进行提问。

非常感谢大家一起来贡献！共建飞桨繁荣社区！

fiyen commented 3 years ago

认领：句子级情感分类，NLPCC14-SC

dyan-dy commented 3 years ago

认领：文本相似度 BQ Corpus

dyan-dy commented 3 years ago

请问如何确定数据集的md5？

smallv0221 commented 3 years ago

请问如何确定数据集的md5？

有很多方法可以确定md5，可以搜一下，linux上可以使用md5sum这个命令

dyan-dy commented 3 years ago

请问如何确定数据集的md5？

有很多方法可以确定md5，可以搜一下，linux上可以使用md5sum这个命令

感谢，问题已经解决了。第一次操作不太熟悉，最开始搜的方式不太对没找到有用的信息。

dyan-dy commented 3 years ago

老师们好，我在使用colab进行bq_corpus数据集的接入，在写好bp_corpus.py之后，发现在cell里面输出会出现如下报错。我尝试过sys.path.append()加入路径、把load_dataset()参数改成文件路径，都没有作用，不太知道哪里出了问题，感觉自己这里没有理解清楚，希望老师予以解答，谢谢！

smallv0221 commented 3 years ago

老师们好，我在使用colab进行bq_corpus数据集的接入，在写好bp_corpus.py之后，发现在cell里面输出会出现如下报错。我尝试过sys.path.append()加入路径、把load_dataset()参数改成文件路径，都没有作用，不太知道哪里出了问题，感觉自己这里没有理解清楚，希望老师予以解答，谢谢！

load_dataset的时候后面不用加.py，可以看看是不是这个问题。可以加qq群：758287592，解答问题会更及时一些

github-actions[bot] commented 1 year ago

This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动，被标记为stale。

github-actions[bot] commented 1 year ago

This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天，即将关闭。

PaddlePaddle / PaddleNLP