sbintuitions / JMTEB

The evaluation scripts of JMTEB (Japanese Massive Text Embedding Benchmark)
Creative Commons Attribution Share Alike 4.0 International
24 stars 4 forks source link

Sentence Transformersのtokenizerの設定追加 #31

Closed akiFQC closed 2 months ago

akiFQC commented 2 months ago

現状では、Sentence Transformerのインスタンス化の際にトークナイザーの設定をargparseから追加することができない。

sbintuitions/sarashina2-7b などのモデルでは、tokenizer_fast=Falseを指定する必要があるので、SentenceBertEmbedderinitの変数にトークナイザー設定用のdictを追加できると嬉しい。

lsz05 commented 2 months ago

30 でcomplete