PDF不能正常获取TOC和封面截图，只能显示output-x.png作为目录

niphor commented 5 months ago

Describe the bug 描述你遇到的问题 PDF 本身有 TOC，但是导入时，不能正常获取，目录列表里都是output-x.png 另外 PDF的封面建议可以取第一页的图片作为封面图进行展示。现在要有目录只能点击边上的书本图标，用浏览器来浏览PDF

To Reproduce 如何重现问题

Expected behavior 期待修复的效果 能够正常获取目录

Screenshots 如有必要，可以截图说明 导入时无法获取正确的目录信息

PDF本身是带有书签的

版本说明

Additional context 其他说明 如果可以的话，还是最好能判断下PDF是文本类型的，还是图片类型的，文本类型的以HTML输出的话能利用下类似朗读功能

hectorqin commented 5 months ago

嗯，现在pdf只是转成一页一页图片，因为要解析pdf的话逻辑有点复杂，如果直接用pdf.js的话，每次打开又得下载pdf全文，所以暂时没有好办法

niphor commented 5 months ago

@hectorqin 感谢回复

现阶段转成图片的话，也可以接受，正常阅读没啥问题。但是建议可以单独取目录信息，这样起码比都是output-x.png好点 Java类库比如pdfbox,也有现成的方法，比如：如何使用Java中的PDFBox获取PDF文件中的所有书签完整示例也才40多行代码

希望可以考虑

hectorqin commented 4 months ago

试试新版本

niphor commented 4 months ago

感谢

可以正常获取和使用

greatbody commented 1 month ago

我用的 hectorqin/reader:3.2.10 镜像，导入到 PDF 无法识别 TOC，无法正常显示章节内容。《毛泽东选集》（第一卷）（正文）.pdf

hectorqin / reader