Closed akiFQC closed 1 month ago
大変申し訳ないのですが、prefixにE5と同様、query: もしくはpassage: を利用することを想定したモデルとなっています。評価値が自分の手元⬇️と異なることから、評価スクリプトにおいてprefixが正しくついているか確認いただけないでしょうか?
{
"Classification": {
"amazon_counterfactual_classification": {
"macro_f1": 0.7005147244958231
},
"amazon_review_classification": {
"macro_f1": 0.5263680453119501
},
"massive_intent_classification": {
"macro_f1": 0.7983787583297884
},
"massive_scenario_classification": {
"macro_f1": 0.8709593192703351
}
},
"Reranking": {
"esci": {
"ndcg@10": 0.9268625513429571
}
},
"Retrieval": {
"jagovfaqs_22k": {
"ndcg@10": 0.6595934642903105
},
"jaqket": {
"ndcg@10": 0.6533452086105761
},
"mrtydi": {
"ndcg@10": 0.36731170141136216
},
"nlp_journal_abs_intro": {
"ndcg@10": 0.9553567926226499
},
"nlp_journal_title_abs": {
"ndcg@10": 0.940828991756893
},
"nlp_journal_title_intro": {
"ndcg@10": 0.8163161967769845
}
},
"STS": {
"jsick": {
"spearman": 0.8383455453168481
},
"jsts": {
"spearman": 0.7895388048564987
}
},
"Clustering": {
"livedoor_news": {
"v_measure_score": 0.5861760622672214
},
"mewsc16": {
"v_measure_score": 0.4784844036038961
}
},
"PairClassification": {
"paws_x_ja": {
"binary_f1": 0.6173974540311173
}
}
}
@yano0 評価時はprefix付けずにこのまま回しました,申し訳ありませんでした。 お手元のスコアをそのまま転記させていただいてもよろしいでしょうか?
@yano0 評価時はprefix付けずにこのまま回しました,申し訳ありませんでした。 お手元のスコアをそのまま転記させていただいてもよろしいでしょうか?
@lsz05 いえ、Huggingfaceのモデルカードでは数日間prefixが必要という記載が抜けており、その影響もあるかと思います。すみません。 転記については問題ありません。お手数おかけします。
修正していきます。
@yano0 #75 に修正しました。ご確認をお願いいたします!(良ければ #71, #72 の申告の部分もクリックしていただければと思います,しなくても構いません)
@lsz05 確認しました!良さそうです! seen/unseen申告ですが、自分からは押せなさそうでした。 お手数ですが、 JSTS、PAWS-X、Mr.TyDiにチェックいただけると助かります。
@yano0 両モデルともJSTS、PAWS-X、Mr.TyDiという理解でよろしいでしょうか
@lsz05 はい、そうです。
モデルの基本情報
name: pkshatech/RoSEtta-base-ja type: RoFomer(カスタムコード) size: 0.1B lang: ja
モデル詳細
https://huggingface.co/pkshatech/RoSEtta-base-ja
seen/unseen申告
JMTEBの評価データセットの中,training splitをモデル学習に使用した,またはvalidation setとして,ハイパラチューニングやearly stoppingに使用したデータセット名をチェックしてください。
評価スクリプト
その他の情報