如何評斷LLM 模型回答結果的好壞 - Githubissues

NeroCube / bookmark

Place some learning resources

0 stars 0 forks source link

如何評斷LLM 模型回答結果的好壞 #441

Open NeroCube opened 1 week ago

NeroCube commented 1 week ago

評估大型語言模型（LLM）回答結果的好壞可以從多個角度進行，以下是一些常見的方法和指標：

準確性（Accuracy）：檢查模型回答是否正確，特別是對於有明確答案的問題。
相關性（Relevance）：評估回答是否與問題相關，是否能夠解決用戶的需求。
流暢性（Fluency）：回答是否語法正確、自然流暢，像是由人類撰寫的。
完整性（Completeness）：回答是否全面，是否涵蓋了問題的所有重要方面。
一致性（Consistency）：模型在不同情境下是否給出一致的回答。
創造性（Creativity）：在開放性問題中，模型是否能提供新穎、有價值的見解。
偏見（Bias）：檢查模型回答中是否存在性別、種族等方面的偏見。

此外，還有一些具體的評估方法：

人類評估（Human Evaluation）：讓人類評審對模型的回答進行打分或排序，這是最直接的方法，但也比較耗時。
自動評估指標（Automated Metrics）：如ROUGE、BLEU等，這些指標可以快速量化模型回答的質量，但可能無法全面反映回答的好壞。
用戶反饋（User Feedback）：收集實際用戶的反饋，通過點贊、打分等方式來評估模型的表現¹²³⁴⁵。

Source: Conversation with Copilot, 9/17/2024 (1) LLM as a Judge: 用語言模型來評估好壞 · YWC 科技筆記. https://ywctech.net/ml-ai/paper-llm-as-a-judge/. (2) 大语言模型评估全解：评估流程、评估方法及常见问题 - 知乎. https://zhuanlan.zhihu.com/p/644030637. (3) 程序员 - LLM评估：通过7大指标监测并评估大语言模型的表现 - IDP技术干货 - SegmentFault 思否. https://segmentfault.com/a/1190000044514312. (4) 干货分享！如何评估大型语言模型（LLMs）的输出质量？评估方法大盘点！ - 知乎. https://zhuanlan.zhihu.com/p/660777460. (5) 干货分享！如何评估大型语言模型（LLMs）的输出质量？评估方法大盘点！评估大语言模型的方法-CSDN博客. https://blog.csdn.net/python1222/article/details/141129246. (6) undefined. https://chat.lmsys.org/.