输出结果不稳定 - Githubissues

guici123 commented 6 days ago

在输入同样的图片的时，几次测试结果不一致，时好时坏，请问是什么原因导致的呢？有什么方法可以使结果稳定吗？

JulioZhao97 commented 6 days ago

您好，感谢反馈！

图片可以提供测试吗
测试结果如何测试的，使用的是online demo还是sdk？具体的命令和步骤请提供？预测参数，以及环境是否有变化？

guici123 commented 5 days ago

您好，感谢反馈！您好，感谢反馈！您好，感谢反馈！

图片可以提供测试吗图片可以提供测试吗图片可以提供测试吗

测试结果如何测试的，使用的是online demo还是sdk？具体的命令和步骤请提供？预测参数，以及环境是否有变化？测试结果如何测试的，使用的是online demo还是sdk？具体的命令和步骤请提供？预测参数，以及环境是否有变化？测试结果如何测试的，使用的是online demo还是sdk？具体的命令和步骤请提供？预测参数，以及环境是否有变化？

sdk测试的，我是pdf转了iamge，转换环境和代码都是一样的

JulioZhao97 commented 5 days ago

您好，我用下面的代码测试了一下，重复多次的运行结果都是相同的没有波动：

import cv2
import fitz
from tqdm import tqdm
from PIL import Image
from doclayout_yolo import YOLOv10

doc = fitz.open("demo1.pdf")
image_list = []
for page in tqdm(doc):
    pix = page.get_pixmap(dpi=150)
    img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
    image_list.append(img)

model = YOLOv10("doclayout_yolo_docstructbench_imgsz1024.pt")  # load an official model
for page_idx, image in enumerate(image_list):
    det_res = model.predict(
        image,
        imgsz=1024,
        conf=0.15,
        device="cuda",
    )
    annotated_frame = det_res[0].plot(pil=True, line_width=5, font_size=20)
    cv2.imwrite(f"page{page_idx}.jpg", annotated_frame)

使用的样例PDF是https://github.com/opendatalab/MinerU/blob/master/demo/demo1.pdf 可以麻烦您提供更多的信息供测试吗（例如代码、数据、环境）？如果我没有理解错的话，您意思是模型多次相同输入和环境重复运行有波动 而不是 模型在不同文档上的表现时好时坏？

guici123 commented 5 days ago

您好，我用下面的代码测试了一下，重复多次的运行结果都是相同的没有波动：您好，我用下面的代码测试了一下，重复多次的运行结果都是相同的没有波动：您好，我用下面的代码测试了一下，重复多次的运行结果都是相同的没有波动：
import cv2
import fitz
from tqdm import tqdm
from PIL import Image
from doclayout_yolo import YOLOv10

doc = fitz.open("demo1.pdf")
image_list = []
for page in tqdm(doc):
    pix = page.get_pixmap(dpi=150)
    img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
    image_list.append(img)

model = YOLOv10("doclayout_yolo_docstructbench_imgsz1024.pt")  # load an official model
for page_idx, image in enumerate(image_list):
    det_res = model.predict(
        image,
        imgsz=1024,
        conf=0.15,
        device="cuda",
    )
    annotated_frame = det_res[0].plot(pil=True, line_width=5, font_size=20)
    cv2.imwrite(f"page{page_idx}.jpg", annotated_frame)
使用的样例PDF是https://github.com/opendatalab/MinerU/blob/master/demo/demo1.pdf使用的样例PDF是https://github.com/opendatalab/MinerU/blob/master/demo/demo1.pdf使用的样例PDF是https://github.com/opendatalab/MinerU/blob/master/demo/demo1.pdf 可以麻烦您提供更多的信息供测试吗（例如代码、数据、环境）？如果我没有理解错的话，您意思是模型多次相同输入和环境重复运行有波动 而不是 模型在不同文档上的表现时好时坏？可以麻烦您提供更多的信息供测试吗（例如代码、数据、环境）？如果我没有理解错的话，您意思是模型多次相同输入和环境重复运行有波动 而不是 模型在不同文档上的表现时好时坏？可以麻烦您提供更多的信息供测试吗（例如代码、数据、环境）？如果我没有理解错的话，您意思是模型多次相同输入和环境重复运行有波动 而不是 模型在不同文档上的表现时好时坏？

是的，相同输入，现在有可能就是pdf转image可能有波动？我后续先排查一下

guici123 commented 5 days ago

您好，我用下面的代码测试了一下，重复多次的运行结果都是相同的没有波动：您好，我用下面的代码测试了一下，重复多次的运行结果都是相同的没有波动：您好，我用下面的代码测试了一下，重复多次的运行结果都是相同的没有波动：
import cv2
import fitz
from tqdm import tqdm
from PIL import Image
from doclayout_yolo import YOLOv10

doc = fitz.open("demo1.pdf")
image_list = []
for page in tqdm(doc):
    pix = page.get_pixmap(dpi=150)
    img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
    image_list.append(img)

model = YOLOv10("doclayout_yolo_docstructbench_imgsz1024.pt")  # load an official model
for page_idx, image in enumerate(image_list):
    det_res = model.predict(
        image,
        imgsz=1024,
        conf=0.15,
        device="cuda",
    )
    annotated_frame = det_res[0].plot(pil=True, line_width=5, font_size=20)
    cv2.imwrite(f"page{page_idx}.jpg", annotated_frame)
使用的样例PDF是https://github.com/opendatalab/MinerU/blob/master/demo/demo1.pdf使用的样例PDF是https://github.com/opendatalab/MinerU/blob/master/demo/demo1.pdf使用的样例PDF是https://github.com/opendatalab/MinerU/blob/master/demo/demo1.pdf 可以麻烦您提供更多的信息供测试吗（例如代码、数据、环境）？如果我没有理解错的话，您意思是模型多次相同输入和环境重复运行有波动 而不是 模型在不同文档上的表现时好时坏？可以麻烦您提供更多的信息供测试吗（例如代码、数据、环境）？如果我没有理解错的话，您意思是模型多次相同输入和环境重复运行有波动 而不是 模型在不同文档上的表现时好时坏？可以麻烦您提供更多的信息供测试吗（例如代码、数据、环境）？如果我没有理解错的话，您意思是模型多次相同输入和环境重复运行有波动 而不是 模型在不同文档上的表现时好时坏？
是的，相同输入，现在有可能就是pdf转image可能有波动？我后续先排查一下

这个是输入图片的时候结果： result_1

这个是按照你的方法pdf转图片结果: page9_old

这个是我的方法转图片结果： page10_layout_od_model

车内解锁闭锁这个得分有点变化

JulioZhao97 commented 5 days ago

@guici123 您好，这种波动属于正常的，输入变化了检测结果肯定会有细微变化，您可以根据需求调整PDF转图像的DPI等参数来达到想要的behavior；但是多次重复相同输入，检测结果肯定是不会波动的

guici123 commented 5 days ago

@guici123 您好，这种波动属于正常的，输入变化了检测结果肯定会有细微变化，您可以根据需求调整PDF转图像的DPI等参数来达到想要的behavior；但是多次重复相同输入，检测结果肯定是不会波动的

理论上是不是dpi越高越好呢？另外我在使用您的方法转image和我的方法转image都是设置了600

JulioZhao97 commented 5 days ago

@guici123 您好，这种波动属于正常的，输入变化了检测结果肯定会有细微变化，您可以根据需求调整PDF转图像的DPI等参数来达到想要的behavior；但是多次重复相同输入，检测结果肯定是不会波动的

理论上是不是dpi越高越好呢？另外我在使用您的方法转image和我的方法转image都是设置了600

这个也没有详细测试过，微调数据的DPI在72-200之间，但是DPI越高细节会越清楚，可能会更好

guici123 commented 5 days ago

@guici123 您好，这种波动属于正常的，输入变化了检测结果肯定会有细微变化，您可以根据需求调整PDF转图像的DPI等参数来达到想要的behavior；但是多次重复相同输入，检测结果肯定是不会波动的

理论上是不是dpi越高越好呢？另外我在使用您的方法转image和我的方法转image都是设置了600

这个也没有详细测试过，微调数据的DPI在72-200之间，但是DPI越高细节会越清楚，可能会更好

测试了200,300,600三种dpi，发现dpi低的话会更准一些

JulioZhao97 commented 5 days ago

@guici123 您好，这种波动属于正常的，输入变化了检测结果肯定会有细微变化，您可以根据需求调整PDF转图像的DPI等参数来达到想要的behavior；但是多次重复相同输入，检测结果肯定是不会波动的

理论上是不是dpi越高越好呢？另外我在使用您的方法转image和我的方法转image都是设置了600

这个也没有详细测试过，微调数据的DPI在72-200之间，但是DPI越高细节会越清楚，可能会更好

测试了200,300,600三种dpi，发现dpi低的话会更准一些

感谢反馈！

opendatalab / DocLayout-YOLO

输出结果不稳定 #48