NeroCube / bookmark

Place some learning resources
0 stars 0 forks source link

如何評斷LLM 模型回答結果的好壞 #441

Open NeroCube opened 1 week ago

NeroCube commented 1 week ago

評估大型語言模型(LLM)回答結果的好壞可以從多個角度進行,以下是一些常見的方法和指標:

  1. 準確性(Accuracy):檢查模型回答是否正確,特別是對於有明確答案的問題。
  2. 相關性(Relevance):評估回答是否與問題相關,是否能夠解決用戶的需求。
  3. 流暢性(Fluency):回答是否語法正確、自然流暢,像是由人類撰寫的。
  4. 完整性(Completeness):回答是否全面,是否涵蓋了問題的所有重要方面。
  5. 一致性(Consistency):模型在不同情境下是否給出一致的回答。
  6. 創造性(Creativity):在開放性問題中,模型是否能提供新穎、有價值的見解。
  7. 偏見(Bias):檢查模型回答中是否存在性別、種族等方面的偏見。

此外,還有一些具體的評估方法:

Source: Conversation with Copilot, 9/17/2024 (1) LLM as a Judge: 用語言模型來評估好壞 · YWC 科技筆記. https://ywctech.net/ml-ai/paper-llm-as-a-judge/. (2) 大语言模型评估全解:评估流程、评估方法及常见问题 - 知乎. https://zhuanlan.zhihu.com/p/644030637. (3) 程序员 - LLM评估:通过7大指标监测并评估大语言模型的表现 - IDP技术干货 - SegmentFault 思否. https://segmentfault.com/a/1190000044514312. (4) 干货分享!如何评估 大型语言模型(LLMs)的输出质量?评估方法大盘点! - 知乎. https://zhuanlan.zhihu.com/p/660777460. (5) 干货分享!如何评估 大型语言模型(LLMs)的输出质量?评估方法大盘点!评估大语言模型的 方法-CSDN博客. https://blog.csdn.net/python1222/article/details/141129246. (6) undefined. https://chat.lmsys.org/.