球各位大佬帮忙解答一下，关于MRC的问题。使用自己的数据集，预测结果出现单个字的情况？

PaddlePaddle / PaddleNLP

👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.

https://paddlenlp.readthedocs.io

Apache License 2.0

12.11k stars 2.94k forks source link

球各位大佬帮忙解答一下，关于MRC的问题。使用自己的数据集，预测结果出现单个字的情况？ #153

Closed Minjuner-97 closed 1 year ago

Minjuner-97 commented 3 years ago

球各位大佬帮忙解答一下~ 在使用paddlepaddle的MRC代码的时候，出现以下迷惑情况。之前使用自带数据集，预测结果是正常的；使用自己的数据集（2151个），也是正常的，预测结果还不错的；正常结果如下： "1612": "张国荣", "1206": "张火丁", "2025": "罗密欧", "372": "刘霓娜", "2885": "中井贵惠", "2768": "鲁桓公", "1969": "也遂皇后", "4026": "钱韵玲", "1451": "蒋友青",

后来使用自己的另外一个数据集（17199个），出现了一下情况： "0": "唐", "1": "作", "2": "丁", "3": "诺", "4": "令", "5": "沙", "6": "穆", "7": "周", "8": "唐", "9": "弟",

但其实，预测的是不对的，应该是正常的人名，且训练过程中，epoch = 1，batchsize = 12，在第509个batch之后，loss出现nan的情况；目前尝试过的方法： 1、调小学习率，无用； 2、使用小数据集，不会出现loss为nan的情况。

球球各位大佬帮忙解答一下~

smallv0221 commented 3 years ago

请问你用的是哪个代码，Dureader-robust的么，还有你使用的数据集确定格式正确么。

Minjuner-97 commented 3 years ago

请问你用的是哪个代码，Dureader-robust的么，还有你使用的数据集确定格式正确么。

代码路径：paddlenlp -->example -->machine_reading_comprehension-->DuReader-robust 使用的数据已经和源数据保持一致，但是因为我的任务和Dureader的任务不太一样，我没有Question_id，故我使用的是每个样本的id作为questionid（可能会存在一个问题对应多个文本的情况，但是每个样本不一样）；并已经可以输入到模型当中。

smallv0221 commented 3 years ago

训练和预测都是用的自己的数据集么

smallv0221 commented 3 years ago

另外能给一下你使用的样例数据集么

github-actions[bot] commented 1 year ago

This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动，被标记为stale。

github-actions[bot] commented 1 year ago

This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天，即将关闭。