FlagOpen / FlagEmbedding

Retrieval and Retrieval-augmented LLMs
MIT License
7.72k stars 561 forks source link

数据长度超过512 #374

Open changyunke opened 10 months ago

changyunke commented 10 months ago

作者,您好。我使用spaCy对文档处理,部分文本长度超过512,您提供的模型只能做截断处理吧?能否调整模型,适应最大文本长度呢?还是说超过512后,性能提升少没有意义

staoxiao commented 10 months ago

您好,是的,超过512会被截断。目前模型训练时只开到了512,无法处理更长的长度。下一版本模型会提升最大文本长度。

mouju commented 10 months ago

您好,是的,超过512会被截断。目前模型训练时只开到了512,无法处理更长的长度。下一版本模型会提升最大文本长度。

您好,方便告知下一版本什么时候发布吗?

staoxiao commented 10 months ago

您好,是的,超过512会被截断。目前模型训练时只开到了512,无法处理更长的长度。下一版本模型会提升最大文本长度。

您好,方便告知下一版本什么时候发布吗?

您好,预定下个礼拜。

mouju commented 10 months ago

您好,是的,超过512会被截断。目前模型训练时只开到了512,无法处理更长的长度。下一版本模型会提升最大文本长度。

您好,方便告知下一版本什么时候发布吗?

您好,预定下个礼拜。

不好意思,请问下一版本模型是指reranker吗?刚刚看到发了m3,reranker的下一版本有发布计划吗?

staoxiao commented 10 months ago

您好,是的,超过512会被截断。目前模型训练时只开到了512,无法处理更长的长度。下一版本模型会提升最大文本长度。

您好,方便告知下一版本什么时候发布吗?

您好,预定下个礼拜。

不好意思,请问下一版本模型是指reranker吗?刚刚看到发了m3,reranker的下一版本有发布计划吗?

上面指的是embedding模型m3,reranker的下一版也在训练中。