データセットごとに文字数制限を追加する

OpenAIEmbedderにおいて，インプットのtoken数制限が設けられています。そのため，事前にtoken truncationを行う必要があり，文字数を制限しないまま全てencoderに入れると，処理速度が低下します。 https://github.com/sbintuitions/JMTEB/pull/17#discussion_r1571685113

そして，文字数が0（空ストリング）の場合も事前に処理しておくことが望ましいです。特にOpenAI text embedding APIに対しては #15 の処理がまだ危ないので，ダブルチェックとしてスペース以外の文字を入れておこうと思います。

sbintuitions / JMTEB

データセットごとに文字数制限を追加する #18