opendatalab / PDF-Extract-Kit

A Comprehensive Toolkit for High-Quality PDF Content Extraction
https://pdf-extract-kit.readthedocs.io/zh-cn/latest/index.html
GNU Affero General Public License v3.0
5.18k stars 349 forks source link

获取layoutlmv3-ft的版面检测推理结果 #163

Closed luciaganlulu closed 38 minutes ago

luciaganlulu commented 4 hours ago

您好,直接运行python scripts/layout_detection.py --config configs/layout_detection.yaml的话,只是新建了result_path路径,并没有存储detection_results结果,请问如何解析出其中的im_path, boxes, scores, classes信息呢?检测结果annotated_image在哪里呢?

JulioZhao97 commented 4 hours ago

您好,

  1. 可视化结果,config文件里需要设置visualize=True
  2. 推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61
luciaganlulu commented 4 hours ago

您好,

  1. 可视化结果,config文件里需要设置visualize=True
  2. 推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问config文件是跟model_final.pth一起的那个config.json么?里面没有visualize,只有个visual_embed

luciaganlulu commented 3 hours ago

您好,

  1. 可视化结果,config文件里需要设置visualize=True
  2. 推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问下这个detection_results这里的results 嘛?

JulioZhao97 commented 3 hours ago

您好,

  1. 可视化结果,config文件里需要设置visualize=True
  2. 推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问config文件是跟model_final.pth一起的那个config.json么?里面没有visualize,只有个visual_embed

不是,是configs/layout_detection_layoutlmv3.yaml里面需要设置visualize=True

JulioZhao97 commented 3 hours ago

您好,

  1. 可视化结果,config文件里需要设置visualize=True
  2. 推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问下这个detection_results这里的results 嘛?

是的,您可以通过切换到predict_pdf来处理PDF文件

luciaganlulu commented 2 hours ago

您好,

  1. 可视化结果,config文件里需要设置visualize=True
  2. 推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问config文件是跟model_final.pth一起的那个config.json么?里面没有visualize,只有个visual_embed

不是,是configs/layout_detection_layoutlmv3.yaml里面需要设置visualize=True

您好,我这样设置 visualize=True,执行 python scripts/layout_detection.py --config configs/layout_detection.yaml后, outputs/layout_detection 里面还是空的,请问是没有保存成功嘛? image

luciaganlulu commented 1 hour ago

您好,

  1. 可视化结果,config文件里需要设置visualize=True
  2. 推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问下这个detection_results这里的results 嘛?

是的,您可以通过切换到predict_pdf来处理PDF文件

您好,这里我有点没懂,为什么突然说起 predict_pdf呢?当我像现在这样用 predict_image 的话,这个detection_results 是不是 这个results 直接传参过来的呢?因为前者代码里我没法找到上层函数定义,好像写的有点隐蔽,跳转找不到 ~

JulioZhao97 commented 1 hour ago

您好,

  1. 可视化结果,config文件里需要设置visualize=True
  2. 推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问config文件是跟model_final.pth一起的那个config.json么?里面没有visualize,只有个visual_embed

不是,是configs/layout_detection_layoutlmv3.yaml里面需要设置visualize=True

您好,我这样设置 visualize=True,执行 python scripts/layout_detection.py --config configs/layout_detection.yaml后, outputs/layout_detection 里面还是空的,请问是没有保存成功嘛? image

您好,这里visualize=True的缩进不对,visualizemodel_config下的参数

luciaganlulu commented 58 minutes ago

您好,

  1. 可视化结果,config文件里需要设置visualize=True
  2. 推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问config文件是跟model_final.pth一起的那个config.json么?里面没有visualize,只有个visual_embed

不是,是configs/layout_detection_layoutlmv3.yaml里面需要设置visualize=True

您好,我这样设置 visualize=True,执行 python scripts/layout_detection.py --config configs/layout_detection.yaml后, outputs/layout_detection 里面还是空的,请问是没有保存成功嘛? image

您好,这里visualize=True的缩进不对,visualizemodel_config下的参数

好的好的可以啦,感谢感谢~

luciaganlulu commented 57 minutes ago

您好,

  1. 可视化结果,config文件里需要设置visualize=True
  2. 推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问下这个detection_results这里的results 嘛?

是的,您可以通过切换到predict_pdf来处理PDF文件

您好,这里我有点没懂,为什么突然说起 predict_pdf呢?当我像现在这样用 predict_image 的话,这个detection_results 是不是 这个results 直接传参过来的呢?因为前者代码里我没法找到上层函数定义,好像写的有点隐蔽,跳转找不到 ~

这个我测试了一下,这两个是一模一样的,我理解的对嘛?

JulioZhao97 commented 55 minutes ago

您好,

  1. 可视化结果,config文件里需要设置visualize=True
  2. 推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问下这个detection_results这里的results 嘛?

是的,您可以通过切换到predict_pdf来处理PDF文件

您好,这里我有点没懂,为什么突然说起 predict_pdf呢?当我像现在这样用 predict_image 的话,这个detection_results 是不是 这个results 直接传参过来的呢?因为前者代码里我没法找到上层函数定义,好像写的有点隐蔽,跳转找不到 ~

这个我测试了一下,这两个是一模一样的,我理解的对嘛?

这两个函数虽然都是准备好input,然后调用推理,但是传入的input类型不一样,如果您传入的input是一系列或者单个PDF,需要调用predict_pdf,如果是图片的话需要调用predict_images

luciaganlulu commented 50 minutes ago

您好,

  1. 可视化结果,config文件里需要设置visualize=True
  2. 推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问下这个detection_results这里的results 嘛?

是的,您可以通过切换到predict_pdf来处理PDF文件

您好,这里我有点没懂,为什么突然说起 predict_pdf呢?当我像现在这样用 predict_image 的话,这个detection_results 是不是 这个results 直接传参过来的呢?因为前者代码里我没法找到上层函数定义,好像写的有点隐蔽,跳转找不到 ~

这个我测试了一下,这两个是一模一样的,我理解的对嘛?

这两个函数虽然都是准备好input,然后调用推理,但是传入的input类型不一样,如果您传入的input是一系列或者单个PDF,需要调用predict_pdf,如果是图片的话需要调用predict_images

嗯嗯,明白了,那就是输入不同使用的函数不同,predict_pdfpredict_images这两个函数本质都是调用的predict那个函数,前两者只能接受单一类型输入,后者可以接受多种类型输入,我理解对嘛?

JulioZhao97 commented 49 minutes ago

您好,

  1. 可视化结果,config文件里需要设置visualize=True
  2. 推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问下这个detection_results这里的results 嘛?

是的,您可以通过切换到predict_pdf来处理PDF文件

您好,这里我有点没懂,为什么突然说起 predict_pdf呢?当我像现在这样用 predict_image 的话,这个detection_results 是不是 这个results 直接传参过来的呢?因为前者代码里我没法找到上层函数定义,好像写的有点隐蔽,跳转找不到 ~

这个我测试了一下,这两个是一模一样的,我理解的对嘛?

这两个函数虽然都是准备好input,然后调用推理,但是传入的input类型不一样,如果您传入的input是一系列或者单个PDF,需要调用predict_pdf,如果是图片的话需要调用predict_images

嗯嗯,明白了,那就是输入不同使用的函数不同,predict_pdfpredict_images这两个函数本质都是调用的predict那个函数,前两者只能接受单一类型输入,后者可以接受多种类型输入,我理解对嘛?

是的,如果您传入的是PDF请使用predict_pdf,如果传入的是图像请使用predict_images

luciaganlulu commented 38 minutes ago

您好,

  1. 可视化结果,config文件里需要设置visualize=True
  2. 推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问下这个detection_results这里的results 嘛?

是的,您可以通过切换到predict_pdf来处理PDF文件

您好,这里我有点没懂,为什么突然说起 predict_pdf呢?当我像现在这样用 predict_image 的话,这个detection_results 是不是 这个results 直接传参过来的呢?因为前者代码里我没法找到上层函数定义,好像写的有点隐蔽,跳转找不到 ~

这个我测试了一下,这两个是一模一样的,我理解的对嘛?

这两个函数虽然都是准备好input,然后调用推理,但是传入的input类型不一样,如果您传入的input是一系列或者单个PDF,需要调用predict_pdf,如果是图片的话需要调用predict_images

嗯嗯,明白了,那就是输入不同使用的函数不同,predict_pdfpredict_images这两个函数本质都是调用的predict那个函数,前两者只能接受单一类型输入,后者可以接受多种类型输入,我理解对嘛?

是的,如果您传入的是PDF请使用predict_pdf,如果传入的是图像请使用predict_images

好的明白了感谢您的耐心解答,非常感谢!