Open leitelyaya opened 1 year ago
抱歉,最近有点忙没有看到。第六步主要的原因我认为有两点:
总体来说,如果想要体验完美,还有很多工程要做。但如果用gpt4,那就没那么多限制了
你好,文档稍微长一点时,文档后面的内容模型好像学不到,请问你知道怎么解决这个问题吗?
@wallon-ai 这个其实暂时有点无解,因为这个的原理就是对文本中的每行,或者没段进行向量化,然后针对问题也进行向量化,最后通过相似度计算出比较相近的文本段落,然后交给chatgpt进行回答。那在这个过程中,chatgpt其实起到的作用没有想象中的大。
其实这个方案比较适合的场景是QA,特别是有QA手册的,用chatgpt进行抽取关键内容并进行人性化回复会比较适合。或者解析一些段落清晰的文章,例如一段文本描述的内容就基本仅限于该段文本。如果是那种上下文各种联系的,这个并不能很好的解决该问题。
@wallon-ai 最好的办法应该是gpt4或者针对性的微调,但是微调的代价应该很大(openai 还没放出来微调api),gpt4拥有更长的上下文,这样就能解决长文档的问题。
但是gpt4还是有长度限制,就特别好奇chatpdf是如何解决这个问题的?
------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2023年3月28日(星期二) 下午3:11 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [fierceX/Document_QA] 为什么不直接用Embedding召回的结果呢? (Issue #1)
@wallon-ai 最好的办法应该是gpt4或者针对性的微调,但是微调的代价应该很大(openai 还没放出来微调api),gpt4拥有更长的上下文,这样就能解决长文档的问题。
— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: @.***>
第6步有什么改进?为什么不直接用Embedding召回的结果呢?