hectorqin / reader

阅读3服务器版,桌面端,iOS可用。后端 Kotlin + Spring Boot + Vert.x + Coroutine ;前端 Vue.js + Element。麻烦点点star,关注一下公众号【假装大佬】❗️ Demo服务器由于未备案已被关停,建议自行搭建
GNU General Public License v3.0
7.79k stars 5.17k forks source link

PDF不能正常获取TOC和封面截图,只能显示output-x.png作为目录 #510

Closed niphor closed 4 months ago

niphor commented 5 months ago

Describe the bug 描述你遇到的问题 PDF 本身有 TOC,但是导入时,不能正常获取,目录列表里都是output-x.png 另外 PDF的封面建议可以取第一页的图片作为封面图进行展示。 现在要有目录 只能点击边上的 书本 图标,用浏览器来浏览PDF

To Reproduce 如何重现问题

  1. 我测试的文档是:大规模语言模型:从理论到实践
  2. 导入文档时,可以看见 目录都是 output-x.png,且封面没有

Expected behavior 期待修复的效果 能够正常获取目录

Screenshots 如有必要,可以截图说明 导入时 无法获取正确的目录信息

image

PDF本身是带有书签的

image

版本说明

Additional context 其他说明 如果可以的话,还是最好能判断下PDF是文本类型的,还是图片类型的,文本类型的以HTML输出的话能利用下 类似朗读功能

hectorqin commented 5 months ago

嗯,现在pdf只是转成一页一页图片,因为要解析pdf的话逻辑有点复杂,如果直接用pdf.js的话,每次打开又得下载pdf全文,所以暂时没有好办法

niphor commented 5 months ago

@hectorqin 感谢回复

现阶段转成图片的话,也可以接受,正常阅读没啥问题。 但是建议 可以单独取目录信息,这样起码比都是output-x.png好点 Java类库比如pdfbox,也有现成的方法,比如:如何使用Java中的PDFBox获取PDF文件中的所有书签 完整示例也才40多行代码

希望可以考虑

hectorqin commented 4 months ago

试试新版本

niphor commented 4 months ago

感谢

可以正常获取和使用

greatbody commented 1 month ago

我用的 hectorqin/reader:3.2.10 镜像,导入到 PDF 无法识别 TOC,无法正常显示章节内容。 《毛泽东选集》(第一卷)(正文).pdf