PaddlePaddle / PaddleNLP

👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.
https://paddlenlp.readthedocs.io
Apache License 2.0
12.11k stars 2.94k forks source link

球各位大佬帮忙解答一下,关于MRC的问题。使用自己的数据集,预测结果出现单个字的情况? #153

Closed Minjuner-97 closed 1 year ago

Minjuner-97 commented 3 years ago

球各位大佬帮忙解答一下~ 在使用paddlepaddle的MRC代码的时候,出现以下迷惑情况。 之前使用自带数据集,预测结果是正常的;使用自己的数据集(2151个),也是正常的,预测结果还不错的; 正常结果如下: "1612": "张国荣", "1206": "张火丁", "2025": "罗密欧", "372": "刘霓娜", "2885": "中井贵惠", "2768": "鲁桓公", "1969": "也遂皇后", "4026": "钱韵玲", "1451": "蒋友青",

后来使用自己的另外一个数据集(17199个),出现了一下情况: "0": "唐", "1": "作", "2": "丁", "3": "诺", "4": "令", "5": "沙", "6": "穆", "7": "周", "8": "唐", "9": "弟",

但其实,预测的是不对的,应该是正常的人名,且训练过程中,epoch = 1,batchsize = 12,在第509个batch之后,loss出现nan的情况; 目前尝试过的方法: 1、调小学习率,无用; 2、使用小数据集,不会出现loss为nan的情况。

球球各位大佬帮忙解答一下~

smallv0221 commented 3 years ago

请问你用的是哪个代码,Dureader-robust的么,还有你使用的数据集确定格式正确么。

Minjuner-97 commented 3 years ago

请问你用的是哪个代码,Dureader-robust的么,还有你使用的数据集确定格式正确么。

代码路径:paddlenlp -->example -->machine_reading_comprehension-->DuReader-robust 使用的数据已经和源数据保持一致,但是因为我的任务和Dureader的任务不太一样, 我没有Question_id,故我使用的是每个样本的id作为questionid(可能会存在一个问题对应多个文本的情况,但是每个样本不一样);并已经可以输入到模型当中。

smallv0221 commented 3 years ago

训练和预测都是用的自己的数据集么

smallv0221 commented 3 years ago

另外能给一下你使用的样例数据集么

github-actions[bot] commented 1 year ago

This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。

github-actions[bot] commented 1 year ago

This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。