LanluZ / Diyibanzhu-Download

Download novel of 01bz website by OCR and Tampermonkey.第一版主网小说下载器
MIT License
52 stars 1 forks source link

找不到目录(目录重复) #6

Closed suyifengchen closed 1 month ago

suyifengchen commented 1 month ago

Diyibanzhu-Download\ocr \data\image\data\image\ folder\file 错误格式为中间段

Traceback (most recent call last): File "Diyibanzhu-Download\ocr\main.py", line 72, in main() File "Diyibanzhu-Download\ocr\main.py", line 19, in main convert_batch_pdf2image(pdf_dir_path, image_dir_path, poppler_path) File "Diyibanzhu-Download\ocr\pdf.py", line 35, in convert_batch_pdf2image image.save( File "AppData\Local\Programs\Python\Python312\Lib\site-packages\PIL\Image.py", line 2563, in save fp = builtins.open(filename, "w+b")

LanluZ commented 1 month ago

@suyifengchen

你好, 请检查目录是否如下图所示, 并给出更完整的报错信息

image

suyifengchen commented 1 month ago

源码data文件夹下没有创建text文件夹,我以为程序会自动创建,但运行时并没有,手动创建后问题解决。 油猴脚本似乎无法识别部分防盗文字图片,产出的pdf会缺少一些文字,后续会更新吗?

LanluZ commented 1 month ago

源码data文件夹下没有创建text文件夹,我以为程序会自动创建,但运行时并没有,手动创建后问题解决。

  1. 该问题已经在 1.0.1 版本中得到修复, 在第一次运行时会自动生成文件夹

油猴脚本似乎无法识别部分防盗文字图片,产出的pdf会缺少一些文字,后续会更新吗?

  1. 这个问题确实注意到了, 目前就我观察有两个问题.

    1. 在章节内容页-标号[2]子内容页 疑似拥有需要请求后等待一定时间才会显示文本内容的反爬机制 导致获取到的pdf为空白页.
    2. 对pdf的图像进行切割 可能会导致文字被截断, 使得OCR识别出错.
  2. 目前并没有计划对这两个问题进行解决, 如果对项目感兴趣欢迎pr来解决.

suyifengchen commented 1 month ago

好的,感谢帮助。