suyifengchen commented 1 month ago

Diyibanzhu-Download\ocr \data\image\data\image\ folder\file 错误格式为中间段

Traceback (most recent call last): File "Diyibanzhu-Download\ocr\main.py", line 72, in main() File "Diyibanzhu-Download\ocr\main.py", line 19, in main convert_batch_pdf2image(pdf_dir_path, image_dir_path, poppler_path) File "Diyibanzhu-Download\ocr\pdf.py", line 35, in convert_batch_pdf2image image.save( File "AppData\Local\Programs\Python\Python312\Lib\site-packages\PIL\Image.py", line 2563, in save fp = builtins.open(filename, "w+b")

LanluZ commented 1 month ago

@suyifengchen

你好, 请检查目录是否如下图所示, 并给出更完整的报错信息

suyifengchen commented 1 month ago

源码data文件夹下没有创建text文件夹，我以为程序会自动创建，但运行时并没有，手动创建后问题解决。油猴脚本似乎无法识别部分防盗文字图片，产出的pdf会缺少一些文字，后续会更新吗？

LanluZ commented 1 month ago

源码data文件夹下没有创建text文件夹，我以为程序会自动创建，但运行时并没有，手动创建后问题解决。

该问题已经在 1.0.1 版本中得到修复, 在第一次运行时会自动生成文件夹

油猴脚本似乎无法识别部分防盗文字图片，产出的pdf会缺少一些文字，后续会更新吗？

这个问题确实注意到了, 目前就我观察有两个问题.
1. 在章节内容页-标号[2]子内容页疑似拥有需要请求后等待一定时间才会显示文本内容的反爬机制导致获取到的pdf为空白页.
2. 对pdf的图像进行切割可能会导致文字被截断, 使得OCR识别出错.
目前并没有计划对这两个问题进行解决, 如果对项目感兴趣欢迎pr来解决.

suyifengchen commented 1 month ago

好的，感谢帮助。

LanluZ / Diyibanzhu-Download

找不到目录(目录重复) #6