RoboRate / TuningTitans

MIT License
0 stars 6 forks source link

feat: benchmark(3) 自訂benchmark QA #18

Closed FernandeChant closed 1 year ago

FernandeChant commented 1 year ago
  1. 設計Benchmark的QA dataset
FernandeChant commented 1 year ago

@yillkid Benchmark的資料我是載CLUE benchmark的「DRCD 繁体阅读理解任务 Reading Comprehension for Traditional Chinese」,並且整理成QA。

yillkid commented 1 year ago

我看完 test_output.jsonl 發現,其實測試資料蠻標準的,有點推翻我之前推測的 training data 或 Q&A 資料太髒的推測。你們這兩天討論下來有什麼新的決策?也讓我知道一下。

FernandeChant commented 1 year ago

我看完 test_output.jsonl 發現,其實測試資料蠻標準的,有點推翻我之前推測的 training data 或 Q&A 資料太髒的推測。你們這兩天討論下來有什麼新的決策?也讓我知道一下。

如Samantha在今日Line所說,我們這邊選擇了分類資料,以民眾報案資料是否為食安問題為分類。

下面為預計會設計的Benchmark QA: prompt為問題,completion為標準答案。

{"prompt": "其表示**區***餐館衛生存在問題,溝通*反映人表示核查下具體哪一家***。\n請問這是食品安全問題或非食品安全問題?\n", "completion": "是食品安全問題 \n"}
{"prompt": "事主報吃自助餐,商家驅趕其。 報警人詢問情況,告知已通知相關單位。 事主再報,催促處理,告知已通知。\n請問這是食品安全問題或非食品安全問題?\n", "completion": "非食品安全問題 \n"}
{"prompt": "其在**區***路56號外賣站點上班,被站長拖欠工作。其報警,被告知會通知相關人員與其聯絡,現已過去一個小時,還未有人與其聯絡,諮詢如何處理。\n請問這是食品安全問題或非食品安全問題?\n", "completion": "非食品安全問題 \n"}
{"prompt": "事主報在該處買滷料,對方缺斤少兩,需要工商部門處理。 催促處理,告知已派。 再報,催促處理。\n請問這是食品安全問題或非食品安全問題?\n", "completion": "非食品安全問題 \n"}
{"prompt": "事主報在該處店面買到發黴的火腿腸,人不適。事主稱其多次反映,無人聯絡 再報需聯絡處理。\n請問這是食品安全問題或非食品安全問題?\n", "completion": "是食品安全問題 \n"}