LC1332 / Luotuo-Text-Embedding

Luotuo Embedding(骆驼嵌入) is a text embedding model, which developed by 李鲁鲁, 冷子昂, 陈启源, 蒟蒻等.
Apache License 2.0
258 stars 6 forks source link

几个建议 #13

Open andyfeih opened 1 year ago

andyfeih commented 1 year ago

很棒的工作

  1. 参考下mteb benchmark上现在表现较好的模型, 比如经典的gtr提出的unsupervised-pretrain, supervised-pretrain, finetune的三阶段,finetune可以参考instructor
  2. 不要蒸馏open ai的embedding,从头训练即可, openai的结果我们内部benchmark在中文上并不是特别好
  3. 在前后句之外加入真实场景的q-a数据,比如问答qa对,标题正文等,可以参考sentence transformers那边一些模型的数据集
  4. 对比huggingface上一些开源的中文模型时不要盲信指标,我们发现有些存在(刻意?)的数据泄漏问题导致指标偏高
  5. 实际使用时维度不能太高,建议选bert-base的768或者bert-large的1024即可,再高维度在大部分场景下收益是mariginal的
andyfeih commented 1 year ago
  1. 目前除了simclr这样的对比学习,还有一些非对比的自监督学习方式,也可参考, 比如VICReg
  2. batch size对对比学习的指标影响很大,在硬件资源不足时可以参考https://github.com/luyug/GradCache