PaddlePaddle / PaddleNLP

👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.
https://paddlenlp.readthedocs.io
Apache License 2.0
11.98k stars 2.92k forks source link

[Call for Contribution] Datasets for PaddleNLP(欢迎高质量数据集接入飞桨PaddleNLP ) #447

Closed mawenjie8731 closed 1 year ago

mawenjie8731 commented 3 years ago

1. 目标

PaddleNLP作为飞桨自然语言处理核心库,内置了从数据集、数据处理、到组网建模一系列API,深度适配飞桨新版框架动态图开发模式,旨在为飞桨开发者提升文本领域建模效率,提供基于Paddle 2.0的NLP领域最佳实践。

数据集,可以说是深度学习任务第一站,是推动自然语言处理技术进步的基石。,高质量数据集是模型调优的基础。目前,PaddleNLP中已内置了多个数据集,覆盖信息抽取、分类、匹配、生成到问答、对话、翻译等多个场景。此外,还内置了简洁易用的数据处理API,高效完成NLP任务数据处理通用流程。

我们热切欢迎高质量数据集接入PaddleNLP,在此呼吁广大的飞桨开发者来一起共建我们的数据集,努力为用户提供更加便捷优质的资源,共同打造一条深度学习高速公路。

2. 数据清单

目前的许多技术仅关注模型在单一数据集上的效果,然而自然语言处理技术在大规模产业化的应用中,面临着多领域、多场景等诸多挑战。千言项目(https://www.luge.ai/)旨在提供更加全面的数据集合以应对这些挑战,期望从准确性、泛化性和鲁棒性等多角度对模型效果进行综合评价

本次,我们计划将如下千言数据集接入PaddleNLP。大家可以从这个列表中选择自己想要进行贡献的数据集接入PaddleNLP,如果您有不错的数据集,也欢迎与我们联系。

任务 数据集 数据集下载地址 接入情况
句子级情感分类 ChnSentiCorp https://dataset-bj.cdn.bcebos.com/qianyan/ChnSentiCorp.zip 已存在
NLPCC14-SC https://dataset-bj.cdn.bcebos.com/qianyan/NLPCC14-SC.zip
评价对象集情感分类 SE-ABSA16_PHNS https://dataset-bj.cdn.bcebos.com/qianyan/SE-ABSA16_PHNS.zip 已存在
SE-ABSA16_CAME https://dataset-bj.cdn.bcebos.com/qianyan/SE-ABSA16_CAME.zip
观点抽取 COTE-BD https://dataset-bj.cdn.bcebos.com/qianyan/COTE-BD.zip
COTE-MFW https://dataset-bj.cdn.bcebos.com/qianyan/COTE-MFW.zip
COTE-DP https://dataset-bj.cdn.bcebos.com/qianyan/COTE-DP.zip 已存在
鲁棒性 DuReader_robust https://dataset-bj.cdn.bcebos.com/qianyan/dureader_robust-data.tar.gz 已存在
是非观点问答 DuReader_yesno https://dataset-bj.cdn.bcebos.com/qianyan/dureader_yesno-data.tar.gz 已存在
主动知识对话 DuConv https://dataset-bj.cdn.bcebos.com/qianyan/duconv-qianyan.zip 已存在
文本相似度 LCQMC https://dataset-bj.cdn.bcebos.com/qianyan/lcqmc.zip 已存在
BQ Corpus https://dataset-bj.cdn.bcebos.com/qianyan/bq_corpus.zip
PAWS-X(中文) https://dataset-bj.cdn.bcebos.com/qianyan/paws-x-zh.zip
关系抽取 DuIE2.0 https://dataset-bj.cdn.bcebos.com/qianyan/DuIE_2_0.zip
事件抽取 DuEE1.0 https://dataset-bj.cdn.bcebos.com/qianyan/DuEE_1_0.zip
实体链指 DuEL 2.0 https://dataset-bj.cdn.bcebos.com/qianyan/DuEL2.0.

3. 贡献指南

3.1贡献数据集流程

贡献流程请参考:贡献数据集

参照PaddleNLP已合入数据集:已合入数据集

3.2 数据集认领

  1. 可以在上面提供的列表中进行数据集选择(已存在数据集不需要认领),并将确定的数据集名称回复到本Issue中,方便他人同步知晓已开展的项目,避免重复选择。
  2. 认领后新建一个Issue,标题 (以NLPCC14-SC为例):[Dataset Contrib] NLPCC14-SC For Sentiment Classification

3.3代码文件上传

  1. 写好的文档通过向https://github.com/PaddlePaddle/PaddleNLP/tree/develop/paddlenlp/datasets仓库提交Pull Request的方式来进行数据集文件的上传。
  2. 对提交好的PR需指定Reviewer(@smallv0221)进行内容和代码的评审,如果没有问题的话,具有Merge权限的同学就会合入到PaddleNLP repo,您贡献的数据集就可以供其他人使用啦。

3.4 原则

4. 还有不清楚的怎么办?

欢迎大家随时在这个Issue下进行提问。

非常感谢大家一起来贡献!共建飞桨繁荣社区!

fiyen commented 3 years ago

认领:句子级情感分类,NLPCC14-SC

dyan-dy commented 3 years ago

认领:文本相似度 BQ Corpus

dyan-dy commented 3 years ago

请问如何确定数据集的md5?

smallv0221 commented 3 years ago

请问如何确定数据集的md5?

有很多方法可以确定md5,可以搜一下,linux上可以使用md5sum这个命令

dyan-dy commented 3 years ago

请问如何确定数据集的md5?

有很多方法可以确定md5,可以搜一下,linux上可以使用md5sum这个命令

感谢,问题已经解决了。第一次操作不太熟悉,最开始搜的方式不太对没找到有用的信息。

dyan-dy commented 3 years ago

老师们好,我在使用colab进行bq_corpus数据集的接入,在写好bp_corpus.py之后,发现在cell里面输出会出现如下报错。我尝试过sys.path.append()加入路径、把load_dataset()参数改成文件路径,都没有作用,不太知道哪里出了问题,感觉自己这里没有理解清楚,希望老师予以解答,谢谢! image

smallv0221 commented 3 years ago

老师们好,我在使用colab进行bq_corpus数据集的接入,在写好bp_corpus.py之后,发现在cell里面输出会出现如下报错。我尝试过sys.path.append()加入路径、把load_dataset()参数改成文件路径,都没有作用,不太知道哪里出了问题,感觉自己这里没有理解清楚,希望老师予以解答,谢谢! image

load_dataset的时候后面不用加.py,可以看看是不是这个问题。 可以加qq群:758287592,解答问题会更及时一些

github-actions[bot] commented 1 year ago

This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。

github-actions[bot] commented 1 year ago

This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。