为什么不直接用Embedding召回的结果呢？

leitelyaya commented 1 year ago

第6步有什么改进？为什么不直接用Embedding召回的结果呢？

fierceX commented 1 year ago

抱歉，最近有点忙没有看到。第六步主要的原因我认为有两点：

使回复更贴近人类回复，例如应用到智能客服领域
针对大段文章，这一步能够让chatgpt抽取和问题更加相关的内容回复，当然，这样会出现chatgpt胡说八道的情况

总体来说，如果想要体验完美，还有很多工程要做。但如果用gpt4，那就没那么多限制了

wallon-ai commented 1 year ago

你好，文档稍微长一点时，文档后面的内容模型好像学不到，请问你知道怎么解决这个问题吗？

fierceX commented 1 year ago

@wallon-ai 这个其实暂时有点无解，因为这个的原理就是对文本中的每行，或者没段进行向量化，然后针对问题也进行向量化，最后通过相似度计算出比较相近的文本段落，然后交给chatgpt进行回答。那在这个过程中，chatgpt其实起到的作用没有想象中的大。

其实这个方案比较适合的场景是QA，特别是有QA手册的，用chatgpt进行抽取关键内容并进行人性化回复会比较适合。或者解析一些段落清晰的文章，例如一段文本描述的内容就基本仅限于该段文本。如果是那种上下文各种联系的，这个并不能很好的解决该问题。

fierceX commented 1 year ago

@wallon-ai 最好的办法应该是gpt4或者针对性的微调，但是微调的代价应该很大（openai 还没放出来微调api），gpt4拥有更长的上下文，这样就能解决长文档的问题。

wallon-ai commented 1 year ago

但是gpt4还是有长度限制，就特别好奇chatpdf是如何解决这个问题的？

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2023年3月28日(星期二) 下午3:11 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [fierceX/Document_QA] 为什么不直接用Embedding召回的结果呢？ (Issue #1)

@wallon-ai 最好的办法应该是gpt4或者针对性的微调，但是微调的代价应该很大（openai 还没放出来微调api），gpt4拥有更长的上下文，这样就能解决长文档的问题。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: @.***>

fierceX / Document_QA

为什么不直接用Embedding召回的结果呢？ #1