RoboRate / TuningTitans

MIT License
0 stars 6 forks source link

feat: benchmark(4) benchmark 內容 #30

Closed FernandeChant closed 1 year ago

FernandeChant commented 1 year ago
  1. 上傳Benchmark.py 和QA.jsonl
  2. @yillkid GPT-3.5 基本上可以公正評分,但有時候在比較標準答案和模型的答案會判斷錯誤,或者給分的range有落差,這部分有沒有建議可以調整的方向? 例如:(以下是我們今天訓練好的ada結果)

    問的問題:

    {"prompt": "其表示**區***餐館衛生存在問題,溝通*反映人表示核查下具體哪一家***。\n請問這是食品安全問題或非食品安全問題?\n", "completion": "是食品安全問題 \n"}
    {"prompt": "事主報吃自助餐,商家驅趕其。 報警人詢問情況,告知已通知相關單位。 事主再報,催促處理,告知已通知。\n請問這是食品安全問題或非食品安全問題?\n", "completion": "非食品安全問題 \n"}
    {"prompt": "其在**區***路56號外賣站點上班,被站長拖欠工作。其報警,被告知會通知相關人員與其聯絡,現已過去一個小時,還未有人與其聯絡,諮詢如何處理。\n請問這是食品安全問題或非食品安全問題?\n", "completion": "非食品安全問題 \n"}
    {"prompt": "事主報在該處買滷料,對方缺斤少兩,需要工商部門處理。 催促處理,告知已派。 再報,催促處理。\n請問這是食品安全問題或非食品安全問題?\n", "completion": "非食品安全問題 \n"}
    {"prompt": "事主報在該處店面買到發黴的火腿腸,人不適。事主稱其多次反映,無人聯絡 再報需聯絡處理。\n請問這是食品安全問題或非食品安全問題?\n", "completion": "是食品安全問題 \n"}

    回答結果1

    {'Question': ['其表示**區***餐館衛生存在問題,溝通*反映人表示核查下具體哪一家***。\n請問這是食品安全問題或非食品安全問題?\n', '事主報吃自助餐,商家驅趕其。 報警人詢問情況,告知已通知相關單位。 事主再報,催促處理,告知已通知。\n請問這是食品安全問題
    或非食品安全問題?\n', '其在**區***路56號外賣站點上班,被站長拖欠工作。其報警,被告知會通知相關人員與其聯絡,現已過去一個小時,還未有人與其聯絡,諮詢如何處理。\n請問這是食品安全問題或非食品安全問題?\n', '事主報在該處買滷料,對方缺斤少兩,需要工商部門處理。 催促處理,告知已派。 再報,催促處理。\n請問這是食品安全問題或非食品安全問題?\n', '事主報在該處店面買到發黴的火腿腸,人不適。事主稱其多次反映,無人聯絡 再報需聯絡處理。\n請問這是食品安全問題或非食品安全問題?\n'], 
    'YourModelAnswer': ['我的問題在門面,到現在都有友人殺死一家大家買熟', '-> 非食品安全問題\n\nProvides answer only for 非食品安全問題, not how to', '-> 非食品安全問題\n\n認為食品安全不合理。要求相', '請回覔有關部門處理。\n\n\n報雪菱。\n\n\n\t -> 非食品安全', '處理存在不合理的問題,人不合理的問題。\t -> 是食品安'], 
    'IdealAnswer': ['是食品安全問題', '非食品安全問題', '非食品安全問題', '非食 
    品安全問題', '是食品安全問題']}
    問題1:2
    問題2:3
    問題3:1 **(這個不知道為什麼只給1分)**
    問題4:2 **(這個不知道為什麼只給2分)**
    問題5:7
    總分數:15
    題目數:5

    回答結果2

    {'Question': ['其表示**區***餐館衛生存在問題,溝通*反映人表示核查下具體哪一家***。\n請問這是食品安全問題或非食品安全問題?\n', '事主報吃自助餐,商家驅趕其。 報警人詢問情況,告知已通知相關單位。 事主再報,催促處理,告知已通知。\n請問這是食品安全問題或非食品安全問題?\n', '其在**區***路56號外賣站點上班,被站長拖欠工作。其報警,被告知會通知相關人員與其聯絡,現已過去一個小時,還未有人與其聯絡,諮詢如何處理。\n請問這是食品安全問題或非食品安全問題?\n', '事主報在該處買滷料,對方缺斤少兩,需要工商部門處理。 催促處理,告知已派。 再報,催促處理。\n請問這是食品安全問題或非食品安全問題?\n', '事主報在該處店面買到發黴的火腿腸,人不適。事主稱其多次反映,無人聯絡 再報需聯絡處理。\n請問這是食品安全問題或非食品安全問題?\n'], 
    'YourModelAnswer': ['相關部門對店鋪食品過了或非常垃圾完全進行停衛', '告知事主曾開窗未停掉,還跑人翻來十點式。', '-> 非食品安全問題\n\n非食品安全問題\t -> 非食', '-> 非食品安全問題\n\n-> 非食品安全問題\n\n -> 非食', '道宴事典結果寫得不明白是不是來處理這件事,或者是問'], 
    'IdealAnswer': ['是食品安全問題', '非食品安全問題', '非食品安全問題', '非食品安全問題', '是食品安全問題']}
    問題1: 7分 **(第一題不知道為什麼給了7分)**
    問題2: 1分 
    問題3: 5分 
    問題4: 5分 
    問題5: 0分 
    總分數:18分
    題目數:5
yillkid commented 1 year ago
{"prompt": "事主報在該處店面買到發黴的火腿腸,人不適。事主稱其多次反映,無人聯絡 再報需聯絡處理。\n請問這是食品安全問題或非食品安全問題?\n", "completion": "是食品安全問題 \n"}

看起來是 openai ADA model 不太擅長這種計算問題? 這個很難作到盡善盡美啦,除非你分數這邊自行計算。(其實很多人都這樣做)

yillkid commented 1 year ago

這邊有衝突,請 PR owner 處理一下。

FernandeChant commented 1 year ago

好的, 我這邊先把我的PR關掉

{"prompt": "事主報在該處店面買到發黴的火腿腸,人不適。事主稱其多次反映,無人聯絡 再報需聯絡處理。\n請問這是食品安全問題或非食品安全問題?\n", "completion": "是食品安全問題 \n"}

看起來是 openai ADA model 不太擅長這種計算問題? 這個很難作到盡善盡美啦,除非你分數這邊自行計算。(其實很多人都這樣做)

了解,好的,謝謝老師

FernandeChant commented 1 year ago

這邊有衝突,請 PR owner 處理一下。

我這邊先把我的PR關掉