issues
search
FlagOpen
/
FlagEmbedding
Retrieval and Retrieval-augmented LLMs
MIT License
7.04k
stars
514
forks
source link
BAAIbge-large-zh-v1.5少量正样本是否可以finetune
#383
Open
LanceLuoyuan
opened
9 months ago
LanceLuoyuan
commented
9 months ago
非常棒的工作,想请教下以下两个问题。
基于BAAI/bge-large-zh-v1.5 继续finetune,训练数据里一定要有负样本吗。
一次finetune最少需要的样本量是多少,如果我只有一两个正样本去finetune是否可行。 例如我需要模型新增能力:能够识别出 「销售额和GMV」, 「点击率和Ctr」的相关性很高。 那我只用这两条正样本去finetune可行吗
staoxiao
commented
9 months ago
neg可以为空,注意将train_group_size设为1即可。此时程序会使用其他query的正样本作为负样本,所以此时不能只有一条训练数据,否则没有负样本进行训练模型容易崩溃。
可以尝试一下。不过数据量少会容易出现过拟合,可以进一步通过LM-Cocktail融合模型试试。
非常棒的工作,想请教下以下两个问题。