数据长度超过512 - Githubissues

FlagOpen / FlagEmbedding

Retrieval and Retrieval-augmented LLMs

MIT License

7.72k stars 561 forks source link

Open changyunke opened 10 months ago

changyunke commented 10 months ago

作者，您好。我使用spaCy对文档处理，部分文本长度超过512，您提供的模型只能做截断处理吧？能否调整模型，适应最大文本长度呢？还是说超过512后，性能提升少没有意义

staoxiao commented 10 months ago

您好，是的，超过512会被截断。目前模型训练时只开到了512，无法处理更长的长度。下一版本模型会提升最大文本长度。

mouju commented 10 months ago

您好，是的，超过512会被截断。目前模型训练时只开到了512，无法处理更长的长度。下一版本模型会提升最大文本长度。

您好，方便告知下一版本什么时候发布吗？

staoxiao commented 10 months ago

您好，是的，超过512会被截断。目前模型训练时只开到了512，无法处理更长的长度。下一版本模型会提升最大文本长度。

您好，方便告知下一版本什么时候发布吗？

您好，预定下个礼拜。

mouju commented 10 months ago

您好，是的，超过512会被截断。目前模型训练时只开到了512，无法处理更长的长度。下一版本模型会提升最大文本长度。

您好，方便告知下一版本什么时候发布吗？

您好，预定下个礼拜。

不好意思，请问下一版本模型是指reranker吗？刚刚看到发了m3，reranker的下一版本有发布计划吗？

staoxiao commented 10 months ago

您好，是的，超过512会被截断。目前模型训练时只开到了512，无法处理更长的长度。下一版本模型会提升最大文本长度。

您好，方便告知下一版本什么时候发布吗？

您好，预定下个礼拜。

不好意思，请问下一版本模型是指reranker吗？刚刚看到发了m3，reranker的下一版本有发布计划吗？

上面指的是embedding模型m3，reranker的下一版也在训练中。