PaddlePaddle / PaddleNLP

👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.
https://paddlenlp.readthedocs.io
Apache License 2.0
12.11k stars 2.94k forks source link

PaddleNLP\applications\neural_search\ranking\ernie_matching示例测试文本相似度得分问题 #2713

Closed lbz0920 closed 1 year ago

lbz0920 commented 2 years ago

使用该示例+ernie_gram_sort.zip(model_30000)没有训练直接下载后使用ernie_matching\deploy\python\predict.py测试结果: Data: {'query': '海 尔 全 自 动 洗 衣 机 用 着 不 错', 'title': '海 尔 全 自 动洗 衣 机 好 用'} prob: [0.97645164] Data: {'query': '分数混合运算三做完', 'title': '解酒最快的方法吃甘蔗'} prob: [0.62658757] Data: {'query': '喝酒醉酒了怎么办', 'title': '吃甘蔗喝醋是解酒的方法'} prob: [0.74547625]

1.第2个示例得分0.626587,不同句子相似度得分不应该接近于0吗?下载的模型可以直接使用吗?看里面model_30000应该训练过的,必须训练吗? 2.训练数据集必须覆盖测试文本吗?测试文本数据目前位置怎么做训练数据集?

w5688414 commented 2 years ago
  1. 排序模型是基于文献检索的日志数据进行训练的哈,并不通用,如果效果不满足要求,推荐您用自己的数据集进行训练。
  2. 测试集是单独的,训练集和测试集不需要有交叉。
lbz0920 commented 2 years ago

PaddleNLP\applications\neural_search\ranking\ernie_matching示例: 可以用ernie_gram_zh_pointwise_matching_model.tar模型吗(我看model_20000步,不用训练了吧,训练时间太长了),有通用的模型可以用吗? 项目ERNIE\applications\tasks\text_matching:用的ernie3.0_base模型可以用PaddleNLP提供的数据集训练吗?可以用lcqmc数据集训练吗?

w5688414 commented 2 years ago

ernie_gram_zh_pointwise_matching_model

第一个问题:具体指标没测过,但是ernie_gram_zh_pointwise_matching_model.tar是可以用的。 第二个问题:可以的

lbz0920 commented 2 years ago

使用的LCQMC训练集训练的模型单塔Point-wise语义匹配模型ernie_gram_zh_pointwise_matching_model.tar,是对文本进行2分类任务,只开源了Point-wise语义匹配模型。 1.示例没提供Pair-wise模型,可以作为Pair-wise匹配模型使用吗?这两个模型通用吗? 使用predict_pairwise.py+ernie_gram_zh_pointwise_matching_model预测文本相似度得分存在问题吗?还是必须使用LCQMC+train_pairwise.py训练出pair-wise的模型?

lbz0920 commented 2 years ago

使用PaddleNLP\examples\text_matching\ernie_matching>predict_pairwise.py+ernie_gram_zh_pointwise_matching_model.tar(pointwise语义模型)测试结果相似度得分很低 1.测试结论:pairwise不能直接用pointwise模型,需要train_pairwise.py+LCQMC数据集训练出pairwise的模型,是这样吗? 2.paddle提供有ernie_gram_zh_pairwise_matching_model模型下载吗? 上午发的疑问也是pairwise能调用pointwise模型的疑问,也回答下,谢谢恁! 附示例测试结果: {'query': '男人和女人哪个更容易出轨?', 'title': '女人和男人哪个更容易出轨', 'pred_prob': 0.24450393} {'query': '怎么更改苹果手机图标', 'title': '怎么样把苹果手机的图标更改', 'pred_prob': 0.2377773} {'query': '妈妈的奶奶叫什么?', 'title': '妈妈的奶奶我叫什么?', 'pred_prob': 0.26025903} {'query': '音乐播放器怎么下载?', 'title': '怎么下载音乐播放器呢', 'pred_prob':0.25253555}

github-actions[bot] commented 1 year ago

This issue is stale because it has been open for 60 days with no activity. 当前issue 60天内无活动,被标记为stale。

github-actions[bot] commented 1 year ago

This issue was closed because it has been inactive for 14 days since being marked as stale. 当前issue 被标记为stale已有14天,即将关闭。