postor / chatpdf-minimal-demo

a minimal viable project of chatpdf
MIT License
600 stars 108 forks source link

PDF中的表格如何处理? #8

Closed yh7109 closed 1 year ago

yh7109 commented 1 year ago

chatpdf也可以精准回答表格中的数值问题,但是解析出来PDF中的表格,怎么切片和向量化?

postor commented 1 year ago

表格或者其他富文本,最简单都当文本去做 embedding,做上下文的时候也原封不动提供给 ChatGPT 做上下文, 或者选择提取纯文本做 embedding 但提供原文/代码给 ChatGPT 做上下文,最核心的可能就是需要摸索一下支持富文本/代码回复的 prompt 怎么写,但也不要觉得这有多么复杂,大概就是 “请使用 Markdown 格式合理的排版展示回答,高亮重要的数据,使用表格展示多维数据” 剩下的磨合你再去看 ChatGPT 的输出去不断调试 prompt

yh7109 commented 1 year ago

就是要把整个表格转换为一个embedding吗?还是要分行、分字段做embedding? 另外,有没有好用一些的PDF解析工具能把表格解析的好一些的,我解析出来都变成一格一行什么都看不出来了

postor commented 1 year ago

我不了解pdf