PaddlePaddle / PaddleNLP

👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.
https://paddlenlp.readthedocs.io
Apache License 2.0
11.97k stars 2.91k forks source link

ernie-3.0-medium-zh和ernie-gram-zh做排序准备度很差 #2610

Closed yrg5101 closed 2 years ago

yrg5101 commented 2 years ago

欢迎您反馈PaddleNLP使用问题,非常感谢您对PaddleNLP的贡献! 在留下您的问题时,辛苦您同步提供如下信息:

场景:query和title的相似匹配

我们测试了ernie-3.0-medium-zh和ernie-gram-zh做排序, 但是效果都很差,感觉相似度是随机出来的

Data: {'query': '超声波测试仪器', 'title': '磁头飞行中磁盘表面润滑膜变化的观测方法及装置'} prob: [0.3108108] Data: {'query': '超声波测试仪器', 'title': '微晶硅薄膜生长过程的可视化观测系统及测量方法'} prob: [0.34414124] Data: {'query': '超声波测试仪器', 'title': '一种均匀磷酸锑微米棒的简易制备方法及其光催化性能'} prob: [0.08148206] Data: {'query': '超声波测试仪器', 'title': '一种混合形态结构磷酸锑的简易制备方法'} prob: [0.34397456] Data: {'query': '超声波测试仪器', 'title': '一种磷酸锑纳米超结构的制备及其光催化新应用'} prob: [0.34207267] Data: {'query': '超声波测试仪器', 'title': '一种超声波测距装置及测距方法'} prob: [0.36478078] Data: {'query': '超声波测试仪器', 'title': '新变异DNA遗传人工鱼群优化DNA序列的频域加权多模方法'} prob: [0.34384623] Data: {'query': '超声波测试仪器', 'title': '一种卫星信道复数神经多项式网络盲均衡系统及方法'} prob: [0.15189767] Data: {'query': '超声波测试仪器', 'title': '一种模因方法优化的多模盲均衡方法'} prob: [0.3441952] Data: {'query': '超声波测试仪器', 'title': '基于混沌量子遗传算法的随机共振微弱信号检测方法'} prob: [0.7015292] Data: {'query': '超声波测试仪器', 'title': '基于PCNN和图像熵的各向异性扩散的图像去噪方法'} prob: [0.35678446] Data: {'query': '超声波测试仪器', 'title': '一种光动能感温LED电磁弹跳式下水器(双报)'} prob: [0.6531047] Data: {'query': '超声波测试仪器', 'title': '近场线性约束最小方差自适应加权频率不变波束形成方法'} prob: [0.34351873] Data: {'query': '超声波测试仪器', 'title': '一种钼酸钴复合二氧化锰电极材料的制备方法'} prob: [0.6958655] Data: {'query': '超声波测试仪器', 'title': '城市固体污染物扩散研究用箱及其方法'} prob: [0.542457] Data: {'query': '超声波测试仪器', 'title': '一种基于一维无衍射光束测量三维面形的装置及方法'} prob: [0.34409687] Data: {'query': '超声波测试仪器', 'title': '一种基于可调P向N型转换的传感材料及其制备方法'} prob: [0.3439054] Data: {'query': '超声波测试仪器', 'title': '一种改进的荒漠植被SO2吸收量的测定方法'} prob: [0.34404826] Data: {'query': '超声波测试仪器', 'title': '一种节目推荐方法'} prob: [0.3425568] Data: {'query': '超声波测试仪器', 'title': '一种针灸力反馈形变模型的建模方法'} prob: [0.3441431] Data: {'query': '超声波测试仪器', 'title': '一种太阳能超声波测风仪'} prob: [0.3413985] Data: {'query': '超声波测试仪器', 'title': '一种一维超声波无线风速风向仪'} prob: [0.3428843]

问题:

  1. ernie-3.0-medium-zh和ernie-gram-zh我们都是用的官方自带的模型, 对于这种垂直领域是否需要做领域数据的训练? 怎么进行领域数据训练?

2.ernie-3.0-medium-zh和ernie-gram-zh排序的速度比较慢, 产生进行了cpu推理加速,参考 https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-3.0/deploy/python#11-CPU%E7%AB%AF

但是上面只有 序列标注模型推理 和 分类模型推理 两个, 但是我们这个场景是相似检索场景, 我该怎么做cpu推理加速?

yrg5101 commented 2 years ago

重复ticket