ArtifexSoftware / pdf2docx

Open source Python library for converting PDF to DOCX.
https://pdf2docx.readthedocs.io
GNU Affero General Public License v3.0
2.37k stars 349 forks source link

pdf2docx.Converter将某些特殊pdf转word时,某个子进程会卡住 #289

Open starlxx opened 2 months ago

starlxx commented 2 months ago

1784766219303317505.pdf 这是一份ppt转成的pdf,里面每张都是图片+少量文本框,在一个有资源限制的pod中,连续多次调用pdf2docx.Converter将其转成word,会出现在mou某次转换时,卡在page 7,之后不再执行任何操作,且每次发生都是在page 7 image

starlxx commented 2 months ago

有人遇到过这种情况吗

starlxx commented 2 months ago

是不是多进程内存释放有问题,测试发现随着使用,内存是逐步增多的

wyslsz commented 3 weeks ago

是不是多进程内存释放有问题,测试发现随着使用,内存是逐步增多的

是的,我也遇到这个问题了,多线程或多进程的时候时间越长内存占用越多,释放不掉