sbintuitions / JMTEB

The evaluation scripts of JMTEB (Japanese Massive Text Embedding Benchmark)

Creative Commons Attribution Share Alike 4.0 International

33 stars 9 forks source link

[EVAL REQUEST] pkshatech/RoSEtta-base-ja #71

Closed akiFQC closed 1 month ago

akiFQC commented 1 month ago

モデルの基本情報

name: pkshatech/RoSEtta-base-ja type: RoFomer(カスタムコード) size: 0.1B lang: ja

モデル詳細

https://huggingface.co/pkshatech/RoSEtta-base-ja

seen/unseen申告

JMTEBの評価データセットの中，training splitをモデル学習に使用した，またはvalidation setとして，ハイパラチューニングやearly stoppingに使用したデータセット名をチェックしてください。

Classification
- [ ] Amazon Review Classification
- [ ] Amazon Counterfactual Classification
- [ ] Massive Intent Classification
- [ ] Massive Scenario Classification
Clustering
- [ ] Livedoor News
- [ ] MewsC-16-ja
STS
- [x] JSTS
- [ ] JSICK
Pair Classification
- [x] PAWS-X-ja
Retrieval
- [ ] JAQKET
- [x] Mr.TyDi-ja
- [ ] JaGovFaqs-22k
- [ ] NLP Journal title-abs
- [ ] NLP Journal title-intro
- [ ] NLP Journal abs-intro
Reranking
- [ ] Esci
[ ] 申告しません

評価スクリプト

その他の情報

lsz05 commented 1 month ago

73

yano0 commented 1 month ago

大変申し訳ないのですが、prefixにE5と同様、query: もしくはpassage: を利用することを想定したモデルとなっています。評価値が自分の手元⬇️と異なることから、評価スクリプトにおいてprefixが正しくついているか確認いただけないでしょうか？

{
    "Classification": {
        "amazon_counterfactual_classification": {
            "macro_f1": 0.7005147244958231
        },
        "amazon_review_classification": {
            "macro_f1": 0.5263680453119501
        },
        "massive_intent_classification": {
            "macro_f1": 0.7983787583297884
        },
        "massive_scenario_classification": {
            "macro_f1": 0.8709593192703351
        }
    },
    "Reranking": {
        "esci": {
            "ndcg@10": 0.9268625513429571
        }
    },
    "Retrieval": {
        "jagovfaqs_22k": {
            "ndcg@10": 0.6595934642903105
        },
        "jaqket": {
            "ndcg@10": 0.6533452086105761
        },
        "mrtydi": {
            "ndcg@10": 0.36731170141136216
        },
        "nlp_journal_abs_intro": {
            "ndcg@10": 0.9553567926226499
        },
        "nlp_journal_title_abs": {
            "ndcg@10": 0.940828991756893
        },
        "nlp_journal_title_intro": {
            "ndcg@10": 0.8163161967769845
        }
    },
    "STS": {
        "jsick": {
            "spearman": 0.8383455453168481
        },
        "jsts": {
            "spearman": 0.7895388048564987
        }
    },
    "Clustering": {
        "livedoor_news": {
            "v_measure_score": 0.5861760622672214
        },
        "mewsc16": {
            "v_measure_score": 0.4784844036038961
        }
    },
    "PairClassification": {
        "paws_x_ja": {
            "binary_f1": 0.6173974540311173
        }
    }
}

lsz05 commented 1 month ago

@yano0 評価時はprefix付けずにこのまま回しました，申し訳ありませんでした。お手元のスコアをそのまま転記させていただいてもよろしいでしょうか？

yano0 commented 1 month ago

@yano0 評価時はprefix付けずにこのまま回しました，申し訳ありませんでした。お手元のスコアをそのまま転記させていただいてもよろしいでしょうか？

@lsz05 いえ、Huggingfaceのモデルカードでは数日間prefixが必要という記載が抜けており、その影響もあるかと思います。すみません。転記については問題ありません。お手数おかけします。

lsz05 commented 1 month ago

修正していきます。

72 も転記させていただきます。

lsz05 commented 1 month ago

@yano0 #75 に修正しました。ご確認をお願いいたします！（良ければ #71, #72 の申告の部分もクリックしていただければと思います，しなくても構いません）

yano0 commented 1 month ago

@lsz05 確認しました！良さそうです！ seen/unseen申告ですが、自分からは押せなさそうでした。お手数ですが、 JSTS、PAWS-X、Mr.TyDiにチェックいただけると助かります。

lsz05 commented 1 month ago

@yano0 両モデルともJSTS、PAWS-X、Mr.TyDiという理解でよろしいでしょうか

yano0 commented 1 month ago

@lsz05 はい、そうです。

lsz05 commented 1 month ago

75 で修正したのでcloseさせていただきます。