fierceX / Document_QA

类似于chatpdf的简化demo版
190 stars 33 forks source link

为什么不直接用Embedding召回的结果呢? #1

Open leitelyaya opened 1 year ago

leitelyaya commented 1 year ago

第6步有什么改进?为什么不直接用Embedding召回的结果呢?

fierceX commented 1 year ago

抱歉,最近有点忙没有看到。第六步主要的原因我认为有两点:

  1. 使回复更贴近人类回复,例如应用到智能客服领域
  2. 针对大段文章,这一步能够让chatgpt抽取和问题更加相关的内容回复,当然,这样会出现chatgpt胡说八道的情况

总体来说,如果想要体验完美,还有很多工程要做。但如果用gpt4,那就没那么多限制了

wallon-ai commented 1 year ago

你好,文档稍微长一点时,文档后面的内容模型好像学不到,请问你知道怎么解决这个问题吗?

fierceX commented 1 year ago

@wallon-ai 这个其实暂时有点无解,因为这个的原理就是对文本中的每行,或者没段进行向量化,然后针对问题也进行向量化,最后通过相似度计算出比较相近的文本段落,然后交给chatgpt进行回答。那在这个过程中,chatgpt其实起到的作用没有想象中的大。

其实这个方案比较适合的场景是QA,特别是有QA手册的,用chatgpt进行抽取关键内容并进行人性化回复会比较适合。或者解析一些段落清晰的文章,例如一段文本描述的内容就基本仅限于该段文本。如果是那种上下文各种联系的,这个并不能很好的解决该问题。

fierceX commented 1 year ago

@wallon-ai 最好的办法应该是gpt4或者针对性的微调,但是微调的代价应该很大(openai 还没放出来微调api),gpt4拥有更长的上下文,这样就能解决长文档的问题。

wallon-ai commented 1 year ago

但是gpt4还是有长度限制,就特别好奇chatpdf是如何解决这个问题的?

------------------ 原始邮件 ------------------ 发件人: @.>; 发送时间: 2023年3月28日(星期二) 下午3:11 收件人: @.>; 抄送: @.>; @.>; 主题: Re: [fierceX/Document_QA] 为什么不直接用Embedding召回的结果呢? (Issue #1)

@wallon-ai 最好的办法应该是gpt4或者针对性的微调,但是微调的代价应该很大(openai 还没放出来微调api),gpt4拥有更长的上下文,这样就能解决长文档的问题。

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you were mentioned.Message ID: @.***>