Open lsz05 opened 4 months ago
OpenAIEmbedderにおいて,インプットのtoken数制限が設けられています。 そのため,事前にtoken truncationを行う必要があり,文字数を制限しないまま全てencoderに入れると,処理速度が低下します。 https://github.com/sbintuitions/JMTEB/pull/17#discussion_r1571685113
OpenAIEmbedder
そして,文字数が0(空ストリング)の場合も事前に処理しておくことが望ましいです。特にOpenAI text embedding APIに対しては #15 の処理がまだ危ないので,ダブルチェックとしてスペース以外の文字を入れておこうと思います。
OpenAIEmbedder
において,インプットのtoken数制限が設けられています。 そのため,事前にtoken truncationを行う必要があり,文字数を制限しないまま全てencoderに入れると,処理速度が低下します。 https://github.com/sbintuitions/JMTEB/pull/17#discussion_r1571685113そして,文字数が0(空ストリング)の場合も事前に処理しておくことが望ましいです。特にOpenAI text embedding APIに対しては #15 の処理がまだ危ないので,ダブルチェックとしてスペース以外の文字を入れておこうと思います。