issues
search
LC1332
/
Luotuo-Text-Embedding
Luotuo Embedding(骆驼嵌入) is a text embedding model, which developed by 李鲁鲁, 冷子昂, 陈启源, 蒟蒻等.
Apache License 2.0
258
stars
6
forks
source link
几个建议
#13
Open
andyfeih
opened
1 year ago
andyfeih
commented
1 year ago
很棒的工作
参考下mteb benchmark上现在表现较好的模型, 比如经典的gtr提出的unsupervised-pretrain, supervised-pretrain, finetune的三阶段,finetune可以参考instructor
不要蒸馏open ai的embedding,从头训练即可, openai的结果我们内部benchmark在中文上并不是特别好
在前后句之外加入真实场景的q-a数据,比如问答qa对,标题正文等,可以参考sentence transformers那边一些模型的数据集
对比huggingface上一些开源的中文模型时不要盲信指标,我们发现有些存在(刻意?)的数据泄漏问题导致指标偏高
实际使用时维度不能太高,建议选bert-base的768或者bert-large的1024即可,再高维度在大部分场景下收益是mariginal的
andyfeih
commented
1 year ago
目前除了simclr这样的对比学习,还有一些非对比的自监督学习方式,也可参考, 比如VICReg
batch size对对比学习的指标影响很大,在硬件资源不足时可以参考https://github.com/luyug/GradCache
很棒的工作