OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.21k stars 439 forks source link

尝试使用CLIP模型来进行文搜文遇到的问题 #268

Closed Amphetaminewei closed 5 months ago

Amphetaminewei commented 5 months ago

我看CLIP模型也是支持文本向量化的,所以我尝试了一下只使用CLIP,文搜文也是用CLIP,然后发现如果用自己写的简单TXT文档的话insert和search都正常,但是在使用比较长的PDF文档的时候,向量化文档报错

Token indices sequence length is longer than the specified maximum sequence length for this model (356 > 77). Running this sequence through the model will result in indexing errors

看起来是模型不支持这么长的文档?想请教一下有没有什么办法查看模型支持处理多长的文档

ingale726 commented 2 months ago

看模型入口大小