sbintuitions / JMTEB

The evaluation scripts of JMTEB (Japanese Massive Text Embedding Benchmark)
Creative Commons Attribution Share Alike 4.0 International
33 stars 11 forks source link

[EVAL REQUEST] pkshatech/RoSEtta-base-ja #71

Closed akiFQC closed 2 months ago

akiFQC commented 2 months ago

モデルの基本情報

name: pkshatech/RoSEtta-base-ja type: RoFomer(カスタムコード) size: 0.1B lang: ja

モデル詳細

https://huggingface.co/pkshatech/RoSEtta-base-ja

seen/unseen申告

JMTEBの評価データセットの中,training splitをモデル学習に使用した,またはvalidation setとして,ハイパラチューニングやearly stoppingに使用したデータセット名をチェックしてください。

評価スクリプト

その他の情報

lsz05 commented 2 months ago

73

yano0 commented 2 months ago

大変申し訳ないのですが、prefixにE5と同様、query: もしくはpassage: を利用することを想定したモデルとなっています。評価値が自分の手元⬇️と異なることから、評価スクリプトにおいてprefixが正しくついているか確認いただけないでしょうか?

{
    "Classification": {
        "amazon_counterfactual_classification": {
            "macro_f1": 0.7005147244958231
        },
        "amazon_review_classification": {
            "macro_f1": 0.5263680453119501
        },
        "massive_intent_classification": {
            "macro_f1": 0.7983787583297884
        },
        "massive_scenario_classification": {
            "macro_f1": 0.8709593192703351
        }
    },
    "Reranking": {
        "esci": {
            "ndcg@10": 0.9268625513429571
        }
    },
    "Retrieval": {
        "jagovfaqs_22k": {
            "ndcg@10": 0.6595934642903105
        },
        "jaqket": {
            "ndcg@10": 0.6533452086105761
        },
        "mrtydi": {
            "ndcg@10": 0.36731170141136216
        },
        "nlp_journal_abs_intro": {
            "ndcg@10": 0.9553567926226499
        },
        "nlp_journal_title_abs": {
            "ndcg@10": 0.940828991756893
        },
        "nlp_journal_title_intro": {
            "ndcg@10": 0.8163161967769845
        }
    },
    "STS": {
        "jsick": {
            "spearman": 0.8383455453168481
        },
        "jsts": {
            "spearman": 0.7895388048564987
        }
    },
    "Clustering": {
        "livedoor_news": {
            "v_measure_score": 0.5861760622672214
        },
        "mewsc16": {
            "v_measure_score": 0.4784844036038961
        }
    },
    "PairClassification": {
        "paws_x_ja": {
            "binary_f1": 0.6173974540311173
        }
    }
}
lsz05 commented 2 months ago

@yano0 評価時はprefix付けずにこのまま回しました,申し訳ありませんでした。 お手元のスコアをそのまま転記させていただいてもよろしいでしょうか?

yano0 commented 2 months ago

@yano0 評価時はprefix付けずにこのまま回しました,申し訳ありませんでした。 お手元のスコアをそのまま転記させていただいてもよろしいでしょうか?

@lsz05 いえ、Huggingfaceのモデルカードでは数日間prefixが必要という記載が抜けており、その影響もあるかと思います。すみません。 転記については問題ありません。お手数おかけします。

lsz05 commented 2 months ago

修正していきます。

72 も転記させていただきます。

lsz05 commented 2 months ago

@yano0 #75 に修正しました。ご確認をお願いいたします!(良ければ #71, #72 の申告の部分もクリックしていただければと思います,しなくても構いません)

yano0 commented 2 months ago

@lsz05 確認しました!良さそうです! seen/unseen申告ですが、自分からは押せなさそうでした。 お手数ですが、 JSTS、PAWS-X、Mr.TyDiにチェックいただけると助かります。

lsz05 commented 2 months ago

@yano0 両モデルともJSTS、PAWS-X、Mr.TyDiという理解でよろしいでしょうか

yano0 commented 2 months ago

@lsz05 はい、そうです。

lsz05 commented 2 months ago

75 で修正したのでcloseさせていただきます。