请问FT的数据大概应该准备多少呢?

128Ghe980 commented 8 months ago

现在打算使用BGE-base和BGE-large做大模型召回部分的embedding模型，希望在自己的数据集上ft一下，请问二者数据大概应该准备多少呢？另外负例大小有推荐的值吗？还是说默认10就不错？

staoxiao commented 8 months ago

大概几千条就可以较好的微调向量模型，当然在保证质量的情况下微调数据越多越好。 train_group_size，我们一般设为2或者8，效果通常不错。

128Ghe980 commented 8 months ago

大概几千条就可以较好的微调向量模型，当然在保证质量的情况下微调数据越多越好。 train_group_size，我们一般设为2或者8，效果通常不错。

好的，谢谢。另外问一下，你们那个LLM-embedder输出的embedding维度是多少呢？

staoxiao commented 8 months ago

大概几千条就可以较好的微调向量模型，当然在保证质量的情况下微调数据越多越好。 train_group_size，我们一般设为2或者8，效果通常不错。

好的，谢谢。另外问一下，你们那个LLM-embedder输出的embedding维度是多少呢？

是base规模的模型，输出向量768维

128Ghe980 commented 8 months ago

大概几千条就可以较好的微调向量模型，当然在保证质量的情况下微调数据越多越好。 train_group_size，我们一般设为2或者8，效果通常不错。

好的，谢谢。另外问一下，你们那个LLM-embedder输出的embedding维度是多少呢？

是base规模的模型，输出向量768维

ok谢谢，另外还有一个问题，我现在有Q-A问答对和Q-Q query对，这两种能混合起来进行finetune吗？

staoxiao commented 8 months ago

大概几千条就可以较好的微调向量模型，当然在保证质量的情况下微调数据越多越好。 train_group_size，我们一般设为2或者8，效果通常不错。

好的，谢谢。另外问一下，你们那个LLM-embedder输出的embedding维度是多少呢？

是base规模的模型，输出向量768维

ok谢谢，另外还有一个问题，我现在有Q-A问答对和Q-Q query对，这两种能混合起来进行finetune吗？

是可以的，但应该不如分开来训练两个模型效果好。另一种方式是，对Q- A问答对加上指令，QQ不加，让模型能够区分来年各种匹配模式。

128Ghe980 commented 8 months ago

大概几千条就可以较好的微调向量模型，当然在保证质量的情况下微调数据越多越好。 train_group_size，我们一般设为2或者8，效果通常不错。

好的，谢谢。另外问一下，你们那个LLM-embedder输出的embedding维度是多少呢？

是base规模的模型，输出向量768维

ok谢谢，另外还有一个问题，我现在有Q-A问答对和Q-Q query对，这两种能混合起来进行finetune吗？

是可以的，但应该不如分开来训练两个模型效果好。另一种方式是，对Q- A问答对加上指令，QQ不加，让模型能够区分来年各种匹配模式。

有推荐的中文指令吗？我只看到eval中英语版指令Represent this sentence for searching relevant passages，但是直接翻译感觉太怪了

128Ghe980 commented 8 months ago

大概几千条就可以较好的微调向量模型，当然在保证质量的情况下微调数据越多越好。 train_group_size，我们一般设为2或者8，效果通常不错。

好的，谢谢。另外问一下，你们那个LLM-embedder输出的embedding维度是多少呢？

是base规模的模型，输出向量768维

ok谢谢，另外还有一个问题，我现在有Q-A问答对和Q-Q query对，这两种能混合起来进行finetune吗？

是可以的，但应该不如分开来训练两个模型效果好。另一种方式是，对Q- A问答对加上指令，QQ不加，让模型能够区分来年各种匹配模式。

另外我还有个想问一下，我看到是否加入指令是写bash文件中的，不能直接区分哪些需要加，哪些不需要加。那您说的“Q- A问答对加上指令，QQ不加”，我是应该分两步去train，还是直接在q-a数据集的q上直接加上指令然后和qq混合呢？

staoxiao commented 8 months ago

可以参考我们之前使用的中文指令：“为这个句子生成表示以用于检索相关文章：”。直接在q-a数据上加，训练时不设置instruction参数。

128Ghe980 commented 8 months ago

可以参考我们之前使用的中文指令：“为这个句子生成表示以用于检索相关文章：”。直接在q-a数据上加，训练时不设置instruction参数。

ok,明白了，谢谢

ChengsongLu commented 6 months ago

你好，请问你们说的QA和QQ数据分别表示的是，问答数据和相似句子数据对吗。

ChengsongLu commented 6 months ago

另外，英文的passages用中文的query，这样的数据用来微调是可以的吗？（微调BGE-M3）

FlagOpen / FlagEmbedding

请问FT的数据大概应该准备多少呢? #393