AkihikoWatanabe / paper_notes

たまに追加される論文メモ
https://AkihikoWatanabe.github.io/paper_notes
22 stars 0 forks source link

Ruri: Japanese General Text Embeddings, cl-nagoya, 2024.09 #1375

Open AkihikoWatanabe opened 2 months ago

AkihikoWatanabe commented 2 months ago

https://huggingface.co/collections/cl-nagoya/ruri-japanese-general-text-embeddings-66cf1f3ee0c8028b89d85b5e

AkihikoWatanabe commented 2 months ago

元ツイート:https://x.com/hpp_ricecake/status/1831308092459643232?s=46&t=Y6UuIHB0Lv0IpmFAjlc2-Q

AkihikoWatanabe commented 2 months ago

337Mパラメータのモデルで、同等のサイズのモデルをJMTEBで大きく上回る性能。LLMを用いて生成したデータを用いてContrastive Learning, その後高品質なデータでFinetuningを実施したとのこと。

AkihikoWatanabe commented 2 months ago

JMTEB上では、パラメータサイズ不明(だがおそらく桁違いに大きい)のOpenAI/text-embedding-3-largeと同等の性能に見えるが、#1373 などを考慮すると、日本特有の知識を問うQAなどはマルチリンガルなモデルは弱そうなので、その辺がどれほど高い性能を持っているのかは興味がある。

LLMで人工的に生成したデータでは、生成に利用したLLMが持つ知識しか表層的には現れないと思うので何を利用したかによるのと、高品質なラベルデータにその辺がどの程度含まれているか。

AkihikoWatanabe commented 2 months ago

最大sequence長は1012なので、より長い系列をBERTで埋め込みたい場合はRetrievaBERT #1323 (最大sequence長2048)も検討の余地がある。

AkihikoWatanabe commented 2 months ago

開発者の方からテクニカルレポートが出た https://arxiv.org/abs/2409.07737