获取layoutlmv3-ft的版面检测推理结果 - Githubissues

opendatalab / PDF-Extract-Kit

A Comprehensive Toolkit for High-Quality PDF Content Extraction

https://pdf-extract-kit.readthedocs.io/zh-cn/latest/index.html

GNU Affero General Public License v3.0

5.18k stars 349 forks source link

获取layoutlmv3-ft的版面检测推理结果 #163

Closed luciaganlulu closed 38 minutes ago

luciaganlulu commented 4 hours ago

您好，直接运行python scripts/layout_detection.py --config configs/layout_detection.yaml的话，只是新建了result_path路径，并没有存储detection_results结果，请问如何解析出其中的im_path, boxes, scores, classes信息呢？检测结果annotated_image在哪里呢？

JulioZhao97 commented 4 hours ago

您好，

可视化结果，config文件里需要设置visualize=True
推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

luciaganlulu commented 4 hours ago

您好，

可视化结果，config文件里需要设置visualize=True

推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问config文件是跟model_final.pth一起的那个config.json么？里面没有visualize，只有个visual_embed

luciaganlulu commented 3 hours ago

您好，

可视化结果，config文件里需要设置visualize=True

推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问下这个detection_results 是这里的results 嘛？

JulioZhao97 commented 3 hours ago

您好，

可视化结果，config文件里需要设置visualize=True

推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问config文件是跟model_final.pth一起的那个config.json么？里面没有visualize，只有个visual_embed

不是，是configs/layout_detection_layoutlmv3.yaml里面需要设置visualize=True

JulioZhao97 commented 3 hours ago

您好，

可视化结果，config文件里需要设置visualize=True

推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问下这个detection_results 是这里的results 嘛？

是的，您可以通过切换到predict_pdf来处理PDF文件

luciaganlulu commented 2 hours ago

您好，

可视化结果，config文件里需要设置visualize=True

推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问config文件是跟model_final.pth一起的那个config.json么？里面没有visualize，只有个visual_embed

不是，是configs/layout_detection_layoutlmv3.yaml里面需要设置visualize=True

您好，我这样设置 visualize=True，执行 python scripts/layout_detection.py --config configs/layout_detection.yaml后， outputs/layout_detection 里面还是空的，请问是没有保存成功嘛？

luciaganlulu commented 1 hour ago

您好，

可视化结果，config文件里需要设置visualize=True

推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问下这个detection_results 是这里的results 嘛？

是的，您可以通过切换到predict_pdf来处理PDF文件

您好，这里我有点没懂，为什么突然说起 predict_pdf呢？当我像现在这样用 predict_image 的话，这个detection_results 是不是这个results 直接传参过来的呢？因为前者代码里我没法找到上层函数定义，好像写的有点隐蔽，跳转找不到～

JulioZhao97 commented 1 hour ago

您好，

可视化结果，config文件里需要设置visualize=True

推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问config文件是跟model_final.pth一起的那个config.json么？里面没有visualize，只有个visual_embed

不是，是configs/layout_detection_layoutlmv3.yaml里面需要设置visualize=True

您好，我这样设置 visualize=True，执行 python scripts/layout_detection.py --config configs/layout_detection.yaml后， outputs/layout_detection 里面还是空的，请问是没有保存成功嘛？

您好，这里visualize=True的缩进不对，visualize是model_config下的参数

luciaganlulu commented 58 minutes ago

您好，

可视化结果，config文件里需要设置visualize=True

推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问config文件是跟model_final.pth一起的那个config.json么？里面没有visualize，只有个visual_embed

不是，是configs/layout_detection_layoutlmv3.yaml里面需要设置visualize=True

您好，我这样设置 visualize=True，执行 python scripts/layout_detection.py --config configs/layout_detection.yaml后， outputs/layout_detection 里面还是空的，请问是没有保存成功嘛？

您好，这里visualize=True的缩进不对，visualize是model_config下的参数

好的好的可以啦，感谢感谢～

luciaganlulu commented 57 minutes ago

您好，

可视化结果，config文件里需要设置visualize=True

推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问下这个detection_results 是这里的results 嘛？

是的，您可以通过切换到predict_pdf来处理PDF文件

您好，这里我有点没懂，为什么突然说起 predict_pdf呢？当我像现在这样用 predict_image 的话，这个detection_results 是不是这个results 直接传参过来的呢？因为前者代码里我没法找到上层函数定义，好像写的有点隐蔽，跳转找不到～

这个我测试了一下，这两个是一模一样的，我理解的对嘛？

JulioZhao97 commented 55 minutes ago

您好，

可视化结果，config文件里需要设置visualize=True

推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问下这个detection_results 是这里的results 嘛？

是的，您可以通过切换到predict_pdf来处理PDF文件

您好，这里我有点没懂，为什么突然说起 predict_pdf呢？当我像现在这样用 predict_image 的话，这个detection_results 是不是这个results 直接传参过来的呢？因为前者代码里我没法找到上层函数定义，好像写的有点隐蔽，跳转找不到～

这个我测试了一下，这两个是一模一样的，我理解的对嘛？

这两个函数虽然都是准备好input，然后调用推理，但是传入的input类型不一样，如果您传入的input是一系列或者单个PDF，需要调用predict_pdf，如果是图片的话需要调用predict_images

luciaganlulu commented 50 minutes ago

您好，

可视化结果，config文件里需要设置visualize=True

推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问下这个detection_results 是这里的results 嘛？

是的，您可以通过切换到predict_pdf来处理PDF文件

您好，这里我有点没懂，为什么突然说起 predict_pdf呢？当我像现在这样用 predict_image 的话，这个detection_results 是不是这个results 直接传参过来的呢？因为前者代码里我没法找到上层函数定义，好像写的有点隐蔽，跳转找不到～

这个我测试了一下，这两个是一模一样的，我理解的对嘛？

这两个函数虽然都是准备好input，然后调用推理，但是传入的input类型不一样，如果您传入的input是一系列或者单个PDF，需要调用predict_pdf，如果是图片的话需要调用predict_images

嗯嗯，明白了，那就是输入不同使用的函数不同，predict_pdf和predict_images这两个函数本质都是调用的predict那个函数，前两者只能接受单一类型输入，后者可以接受多种类型输入，我理解对嘛？

JulioZhao97 commented 49 minutes ago

您好，

可视化结果，config文件里需要设置visualize=True

推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问下这个detection_results 是这里的results 嘛？

是的，您可以通过切换到predict_pdf来处理PDF文件

您好，这里我有点没懂，为什么突然说起 predict_pdf呢？当我像现在这样用 predict_image 的话，这个detection_results 是不是这个results 直接传参过来的呢？因为前者代码里我没法找到上层函数定义，好像写的有点隐蔽，跳转找不到～

这个我测试了一下，这两个是一模一样的，我理解的对嘛？

这两个函数虽然都是准备好input，然后调用推理，但是传入的input类型不一样，如果您传入的input是一系列或者单个PDF，需要调用predict_pdf，如果是图片的话需要调用predict_images

嗯嗯，明白了，那就是输入不同使用的函数不同，predict_pdf和predict_images这两个函数本质都是调用的predict那个函数，前两者只能接受单一类型输入，后者可以接受多种类型输入，我理解对嘛？

是的，如果您传入的是PDF请使用predict_pdf，如果传入的是图像请使用predict_images

luciaganlulu commented 38 minutes ago

您好，

可视化结果，config文件里需要设置visualize=True

推理结果例如bbox, class, score等在https://github.com/opendatalab/PDF-Extract-Kit/blob/710f577f308f3604e4450076fc04392d2d11009f/pdf_extract_kit/tasks/layout_detection/models/layoutlmv3.py#L59-L61

请问下这个detection_results 是这里的results 嘛？

是的，您可以通过切换到predict_pdf来处理PDF文件

您好，这里我有点没懂，为什么突然说起 predict_pdf呢？当我像现在这样用 predict_image 的话，这个detection_results 是不是这个results 直接传参过来的呢？因为前者代码里我没法找到上层函数定义，好像写的有点隐蔽，跳转找不到～

这个我测试了一下，这两个是一模一样的，我理解的对嘛？

这两个函数虽然都是准备好input，然后调用推理，但是传入的input类型不一样，如果您传入的input是一系列或者单个PDF，需要调用predict_pdf，如果是图片的话需要调用predict_images

嗯嗯，明白了，那就是输入不同使用的函数不同，predict_pdf和predict_images这两个函数本质都是调用的predict那个函数，前两者只能接受单一类型输入，后者可以接受多种类型输入，我理解对嘛？

是的，如果您传入的是PDF请使用predict_pdf，如果传入的是图像请使用predict_images

好的明白了感谢您的耐心解答，非常感谢！