FlagOpen / FlagEmbedding

Retrieval and Retrieval-augmented LLMs
MIT License
6.89k stars 499 forks source link

请问FT的数据大概应该准备多少呢? #393

Open 128Ghe980 opened 8 months ago

128Ghe980 commented 8 months ago

现在打算使用BGE-base和BGE-large做大模型召回部分的embedding模型,希望在自己的数据集上ft一下,请问二者数据大概应该准备多少呢?另外负例大小有推荐的值吗?还是说默认10就不错?

staoxiao commented 8 months ago

大概几千条就可以较好的微调向量模型,当然在保证质量的情况下微调数据越多越好。 train_group_size,我们一般设为2或者8,效果通常不错。

128Ghe980 commented 8 months ago

大概几千条就可以较好的微调向量模型,当然在保证质量的情况下微调数据越多越好。 train_group_size,我们一般设为2或者8,效果通常不错。

好的,谢谢。另外问一下,你们那个LLM-embedder输出的embedding维度是多少呢?

staoxiao commented 8 months ago

大概几千条就可以较好的微调向量模型,当然在保证质量的情况下微调数据越多越好。 train_group_size,我们一般设为2或者8,效果通常不错。

好的,谢谢。另外问一下,你们那个LLM-embedder输出的embedding维度是多少呢?

是base规模的模型,输出向量768维

128Ghe980 commented 8 months ago

大概几千条就可以较好的微调向量模型,当然在保证质量的情况下微调数据越多越好。 train_group_size,我们一般设为2或者8,效果通常不错。

好的,谢谢。另外问一下,你们那个LLM-embedder输出的embedding维度是多少呢?

是base规模的模型,输出向量768维

ok谢谢,另外还有一个问题,我现在有Q-A问答对和Q-Q query对,这两种能混合起来进行finetune吗?

staoxiao commented 8 months ago

大概几千条就可以较好的微调向量模型,当然在保证质量的情况下微调数据越多越好。 train_group_size,我们一般设为2或者8,效果通常不错。

好的,谢谢。另外问一下,你们那个LLM-embedder输出的embedding维度是多少呢?

是base规模的模型,输出向量768维

ok谢谢,另外还有一个问题,我现在有Q-A问答对和Q-Q query对,这两种能混合起来进行finetune吗?

是可以的,但应该不如分开来训练两个模型效果好。另一种方式是,对Q- A问答对加上指令,QQ不加,让模型能够区分来年各种匹配模式。

128Ghe980 commented 8 months ago

大概几千条就可以较好的微调向量模型,当然在保证质量的情况下微调数据越多越好。 train_group_size,我们一般设为2或者8,效果通常不错。

好的,谢谢。另外问一下,你们那个LLM-embedder输出的embedding维度是多少呢?

是base规模的模型,输出向量768维

ok谢谢,另外还有一个问题,我现在有Q-A问答对和Q-Q query对,这两种能混合起来进行finetune吗?

是可以的,但应该不如分开来训练两个模型效果好。另一种方式是,对Q- A问答对加上指令,QQ不加,让模型能够区分来年各种匹配模式。

有推荐的中文指令吗?我只看到eval中英语版指令Represent this sentence for searching relevant passages,但是直接翻译感觉太怪了

128Ghe980 commented 8 months ago

大概几千条就可以较好的微调向量模型,当然在保证质量的情况下微调数据越多越好。 train_group_size,我们一般设为2或者8,效果通常不错。

好的,谢谢。另外问一下,你们那个LLM-embedder输出的embedding维度是多少呢?

是base规模的模型,输出向量768维

ok谢谢,另外还有一个问题,我现在有Q-A问答对和Q-Q query对,这两种能混合起来进行finetune吗?

是可以的,但应该不如分开来训练两个模型效果好。另一种方式是,对Q- A问答对加上指令,QQ不加,让模型能够区分来年各种匹配模式。

另外我还有个想问一下,我看到是否加入指令是写bash文件中的,不能直接区分哪些需要加,哪些不需要加。那您说的“Q- A问答对加上指令,QQ不加”,我是应该分两步去train,还是直接在q-a数据集的q上直接加上指令然后和qq混合呢?

staoxiao commented 8 months ago

可以参考我们之前使用的中文指令:“为这个句子生成表示以用于检索相关文章:”。 直接在q-a数据上加,训练时不设置instruction参数。

128Ghe980 commented 8 months ago

可以参考我们之前使用的中文指令:“为这个句子生成表示以用于检索相关文章:”。 直接在q-a数据上加,训练时不设置instruction参数。

ok,明白了,谢谢

ChengsongLu commented 6 months ago

你好,请问你们说的QA和QQ数据分别表示的是,问答数据和相似句子数据对吗。

ChengsongLu commented 6 months ago

另外,英文的passages用中文的query,这样的数据用来微调是可以的吗?(微调BGE-M3)