postor / chatpdf-minimal-demo

a minimal viable project of chatpdf
MIT License
602 stars 108 forks source link

关于chatgpdf的回答生成过程 #1

Closed dst111dst closed 1 year ago

dst111dst commented 1 year ago

Hi,非常感谢你们的分享! 但是关于最后一步,chatpdf是如何生成回答的,我有一些疑惑:可以看到,chatpdf的回答内容是较为局限在pdf本身的,它不会给出pdf中没有看到的回答。以Why does BERT keep the masked tokens unchanged for 10%这一问题为例(我upload的pdf是bert的论文),chatpdf给出的回答如下:

截屏2023-03-09 上午10 48 06

但是chatgpt却能给出相对而言比较准确的结果: image

我个人的直观感受是,为了确保回答内容是reliable的,它不会回答pdf中没有的内容。这就有点像newBing的回答策略一样()

A1pine commented 1 year ago

也不一定, chatpdf也有“逃逸”的现象 事实上我只上传了Stanford关于量子计算机的第一课的lecture slide,但是他却索引了Lecture 3 image

ghost commented 1 year ago

第一,ChatGPT 的回答并不局限于 PDF 之内,因为它是超大模型所以对训练过程中吸收的世界知识有相对更多的“记忆”,即使没有 PDF 内容的参考大多数的问题它也是可以回答的 第二,它会受到到多少“记忆”的影响,有多么遵守上下文也是可以通过最终构建 ChatGPT 问题的时候用 prompt 和参数去调节的 第三,使用 embedding 计算语义距离是可以设置门槛的,最接近的段落都达到了门槛,就说明问题真的不相干,这个门槛也是有调节空间的 最后,它是否根据近似度对同一本书籍的变种做了合并来减少成本我们也是不能确定的

所以我个人的结论是,GPT不可避免的要使用世界知识,因为没有世界知识它很多东西都无法理解,chatpdf必然是在构建最终查询的时候让GPT尽可能严谨的从上下文中找答案,“逃逸”大概率是世界知识导致。说了这么多不知道能不能解答你的疑惑,因为你的提问,看起来好像,又没有提问 @dst111dst