sbintuitions / JMTEB

The evaluation scripts of JMTEB (Japanese Massive Text Embedding Benchmark)
Creative Commons Attribution Share Alike 4.0 International
24 stars 4 forks source link

[Fix] Rewrite encoding in `TransformersEmbedder` #48

Open lsz05 opened 1 month ago

lsz05 commented 1 month ago

今までのTransformersEmbedderのエンコードメソッドでは独自のバッチ化をしているため,マルチGPUの場合,二重のバッチ分割によりバグを起こりやすいという問題点があります。また,マルチGPUの場合,バッチサイズがGPU数の整数倍ではないと(例えば,batch size = 4, n_gpu = 8)data parallelがうまくいかない可能性があり,バッグりやすいです。

関連する Issue / PR

N/A

PR をマージした後の挙動の変化

挙動の変更を達成するために行ったこと

動作確認