opendatalab / MinerU

A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具,将PDF转换成Markdown和JSON格式。
https://opendatalab.com/OpenSourceTools?tool=extract
GNU Affero General Public License v3.0
17.34k stars 1.25k forks source link

PaddlePaddle相关问题复现case #992

Open phlrain opened 5 hours ago

phlrain commented 5 hours ago

您好,我是PaddlePaddle的开发人员,我们收到一些反馈,说PaddlePaddle在一些环境下存在问题,在某些场景锁定了版本,能否麻烦问下,能否提供一些稍微信息的case,我们方便修复,改进飞桨的用户体验

https://github.com/opendatalab/MinerU/blob/master/setup.py#L43-L45

myhloli commented 3 hours ago

@phlrain 我们确实在使用paddle框架时遇到了一些兼容性问题,以下是几种常见的场景:

  1. 在windows中使用cpu版本的paddlepaddle 3.0.0b1 框架+paddleocr 2.7.3~2.8.1,速度明显比2.6.1版本的paddlepaddle框架慢很多(超过100%),抱歉由于时间问题,没有再测试3.0.0b2和paddleocr2.9.x的组合 https://github.com/PaddlePaddle/Paddle/issues/66697
  2. paddlepaddle-gpu 2.6.1配合paddleocr2.8.0~2.9.1 显存占用明显高出paddlepaddle-gpu 2.6.1 配合paddleocr 2.7.3数倍 https://github.com/PaddlePaddle/PaddleOCR/issues/14053
  3. 我们的项目中需要同时使用pytorch和paddle框架,在linux中,直接安装torch会通过pip安装cu12.1的依赖,如果安装cu12版本的paddlepaddle-gpu 3.0.0b1,也会通过pip导入不同版本的cu12依赖,然后发生冲突,目前是通过安装cu118的paddlepaddle-gpu解决的。
  4. 在windows中情况也不一样,因为paddlepaddle-gpu3.0.0b1内置了pip版本cuda依赖,但是在多次测试中,在干净的虚拟环境中安装paddlepaddle-gpu3.0.0b1或paddlepaddle-gpu3.0.0b2,均发生找不到cuda dll库的问题。 提示找不到的库为D:\project\20240617magicpdf\Magic-PDF\venv\lib\site-packages\paddle..\nvidia\cudnn\bin\cudnn_adv_infer64_8.dll 但是实际上这个是存在的
    这个在不同电脑可能表现不同,但是和https://github.com/PaddlePaddle/Paddle/issues/68673 的情况是类似的 参考:https://github.com/PaddlePaddle/Paddle/issues/66947https://github.com/PaddlePaddle/Paddle/issues/66669