Closed mawenjie8731 closed 1 year ago
认领:句子级情感分类,NLPCC14-SC
认领:文本相似度 BQ Corpus
请问如何确定数据集的md5?
请问如何确定数据集的md5?
有很多方法可以确定md5,可以搜一下,linux上可以使用md5sum这个命令
请问如何确定数据集的md5?
有很多方法可以确定md5,可以搜一下,linux上可以使用md5sum这个命令
感谢,问题已经解决了。第一次操作不太熟悉,最开始搜的方式不太对没找到有用的信息。
老师们好,我在使用colab进行bq_corpus数据集的接入,在写好bp_corpus.py之后,发现在cell里面输出会出现如下报错。我尝试过sys.path.append()加入路径、把load_dataset()参数改成文件路径,都没有作用,不太知道哪里出了问题,感觉自己这里没有理解清楚,希望老师予以解答,谢谢!
老师们好,我在使用colab进行bq_corpus数据集的接入,在写好bp_corpus.py之后,发现在cell里面输出会出现如下报错。我尝试过sys.path.append()加入路径、把load_dataset()参数改成文件路径,都没有作用,不太知道哪里出了问题,感觉自己这里没有理解清楚,希望老师予以解答,谢谢!
load_dataset的时候后面不用加.py,可以看看是不是这个问题。 可以加qq群:758287592,解答问题会更及时一些
This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。
This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。
1. 目标
PaddleNLP作为飞桨自然语言处理核心库,内置了从数据集、数据处理、到组网建模一系列API,深度适配飞桨新版框架动态图开发模式,旨在为飞桨开发者提升文本领域建模效率,提供基于Paddle 2.0的NLP领域最佳实践。
数据集,可以说是深度学习任务第一站,是推动自然语言处理技术进步的基石。,高质量数据集是模型调优的基础。目前,PaddleNLP中已内置了多个数据集,覆盖信息抽取、分类、匹配、生成到问答、对话、翻译等多个场景。此外,还内置了简洁易用的数据处理API,高效完成NLP任务数据处理通用流程。
我们热切欢迎高质量数据集接入PaddleNLP,在此呼吁广大的飞桨开发者来一起共建我们的数据集,努力为用户提供更加便捷优质的资源,共同打造一条深度学习高速公路。
2. 数据清单
目前的许多技术仅关注模型在单一数据集上的效果,然而自然语言处理技术在大规模产业化的应用中,面临着多领域、多场景等诸多挑战。千言项目(https://www.luge.ai/)旨在提供更加全面的数据集合以应对这些挑战,期望从准确性、泛化性和鲁棒性等多角度对模型效果进行综合评价。
本次,我们计划将如下千言数据集接入PaddleNLP。大家可以从这个列表中选择自己想要进行贡献的数据集接入PaddleNLP,如果您有不错的数据集,也欢迎与我们联系。
3. 贡献指南
3.1贡献数据集流程
贡献流程请参考:贡献数据集
参照PaddleNLP已合入数据集:已合入数据集
3.2 数据集认领
3.3代码文件上传
3.4 原则
代码封装得当,易读性好,变量/类/函数命名体现其含义。
注释清晰,另外需要将贡献者以如下形式体现在代码注释中:
4. 还有不清楚的怎么办?
欢迎大家随时在这个Issue下进行提问。
非常感谢大家一起来贡献!共建飞桨繁荣社区!