sbintuitions / JMTEB

The evaluation scripts of JMTEB (Japanese Massive Text Embedding Benchmark)
Creative Commons Attribution Share Alike 4.0 International
24 stars 4 forks source link

データセットごとに文字数制限を追加する #18

Open lsz05 opened 4 months ago

lsz05 commented 4 months ago

OpenAIEmbedderにおいて,インプットのtoken数制限が設けられています。 そのため,事前にtoken truncationを行う必要があり,文字数を制限しないまま全てencoderに入れると,処理速度が低下します。 https://github.com/sbintuitions/JMTEB/pull/17#discussion_r1571685113

そして,文字数が0(空ストリング)の場合も事前に処理しておくことが望ましいです。特にOpenAI text embedding APIに対しては #15 の処理がまだ危ないので,ダブルチェックとしてスペース以外の文字を入れておこうと思います。