Closed guici123 closed 4 days ago
您好,感谢反馈!
您好,感谢反馈!您好,感谢反馈! 您好,感谢反馈!
- 图片可以提供测试吗图片可以提供测试吗 图片可以提供测试吗
- 测试结果如何测试的,使用的是online demo还是sdk?具体的命令和步骤请提供?预测参数,以及环境是否有变化?测试结果如何测试的,使用的是online demo还是sdk?具体的命令和步骤请提供?预测参数,以及环境是否有变化?测试结果如何测试的,使用的是online demo还是sdk?具体的命令和步骤请提供?预测参数,以及环境是否有变化?
sdk测试的,我是pdf转了iamge,转换环境和代码都是一样的
您好,我用下面的代码测试了一下,重复多次的运行结果都是相同的没有波动:
import cv2
import fitz
from tqdm import tqdm
from PIL import Image
from doclayout_yolo import YOLOv10
doc = fitz.open("demo1.pdf")
image_list = []
for page in tqdm(doc):
pix = page.get_pixmap(dpi=150)
img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples)
image_list.append(img)
model = YOLOv10("doclayout_yolo_docstructbench_imgsz1024.pt") # load an official model
for page_idx, image in enumerate(image_list):
det_res = model.predict(
image,
imgsz=1024,
conf=0.15,
device="cuda",
)
annotated_frame = det_res[0].plot(pil=True, line_width=5, font_size=20)
cv2.imwrite(f"page{page_idx}.jpg", annotated_frame)
使用的样例PDF是https://github.com/opendatalab/MinerU/blob/master/demo/demo1.pdf 可以麻烦您提供更多的信息供测试吗(例如代码、数据、环境)?如果我没有理解错的话,您意思是模型多次相同输入和环境重复运行有波动 而不是 模型在不同文档上的表现时好时坏?
您好,我用下面的代码测试了一下,重复多次的运行结果都是相同的没有波动:您好,我用下面的代码测试了一下,重复多次的运行结果都是相同的没有波动:您好,我用下面的代码测试了一下,重复多次的运行结果都是相同的没有波动:
import cv2 import fitz from tqdm import tqdm from PIL import Image from doclayout_yolo import YOLOv10 doc = fitz.open("demo1.pdf") image_list = [] for page in tqdm(doc): pix = page.get_pixmap(dpi=150) img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples) image_list.append(img) model = YOLOv10("doclayout_yolo_docstructbench_imgsz1024.pt") # load an official model for page_idx, image in enumerate(image_list): det_res = model.predict( image, imgsz=1024, conf=0.15, device="cuda", ) annotated_frame = det_res[0].plot(pil=True, line_width=5, font_size=20) cv2.imwrite(f"page{page_idx}.jpg", annotated_frame)
使用的样例PDF是https://github.com/opendatalab/MinerU/blob/master/demo/demo1.pdf使用的样例PDF是https://github.com/opendatalab/MinerU/blob/master/demo/demo1.pdf使用的样例PDF是https://github.com/opendatalab/MinerU/blob/master/demo/demo1.pdf 可以麻烦您提供更多的信息供测试吗(例如代码、数据、环境)?如果我没有理解错的话,您意思是模型多次相同输入和环境重复运行有波动 而不是 模型在不同文档上的表现时好时坏? 可以麻烦您提供更多的信息供测试吗(例如代码、数据、环境)?如果我没有理解错的话,您意思是模型多次相同输入和环境重复运行有波动 而不是 模型在不同文档上的表现时好时坏?可以麻烦您提供更多的信息供测试吗(例如代码、数据、环境)?如果我没有理解错的话,您意思是模型多次相同输入和环境重复运行有波动 而不是 模型在不同文档上的表现时好时坏?
是的,相同输入,现在有可能就是pdf转image可能有波动?我后续先排查一下
您好,我用下面的代码测试了一下,重复多次的运行结果都是相同的没有波动:您好,我用下面的代码测试了一下,重复多次的运行结果都是相同的没有波动:您好,我用下面的代码测试了一下,重复多次的运行结果都是相同的没有波动:
import cv2 import fitz from tqdm import tqdm from PIL import Image from doclayout_yolo import YOLOv10 doc = fitz.open("demo1.pdf") image_list = [] for page in tqdm(doc): pix = page.get_pixmap(dpi=150) img = Image.frombytes("RGB", [pix.width, pix.height], pix.samples) image_list.append(img) model = YOLOv10("doclayout_yolo_docstructbench_imgsz1024.pt") # load an official model for page_idx, image in enumerate(image_list): det_res = model.predict( image, imgsz=1024, conf=0.15, device="cuda", ) annotated_frame = det_res[0].plot(pil=True, line_width=5, font_size=20) cv2.imwrite(f"page{page_idx}.jpg", annotated_frame)
使用的样例PDF是https://github.com/opendatalab/MinerU/blob/master/demo/demo1.pdf使用的样例PDF是https://github.com/opendatalab/MinerU/blob/master/demo/demo1.pdf使用的样例PDF是https://github.com/opendatalab/MinerU/blob/master/demo/demo1.pdf 可以麻烦您提供更多的信息供测试吗(例如代码、数据、环境)?如果我没有理解错的话,您意思是模型多次相同输入和环境重复运行有波动 而不是 模型在不同文档上的表现时好时坏? 可以麻烦您提供更多的信息供测试吗(例如代码、数据、环境)?如果我没有理解错的话,您意思是模型多次相同输入和环境重复运行有波动 而不是 模型在不同文档上的表现时好时坏?可以麻烦您提供更多的信息供测试吗(例如代码、数据、环境)?如果我没有理解错的话,您意思是模型多次相同输入和环境重复运行有波动 而不是 模型在不同文档上的表现时好时坏?
是的,相同输入,现在有可能就是pdf转image可能有波动?我后续先排查一下
这个是输入图片的时候结果:
这个是按照你的方法pdf转图片结果:
这个是我的方法转图片结果:
车内解锁闭锁这个得分有点变化
@guici123 您好,这种波动属于正常的,输入变化了检测结果肯定会有细微变化,您可以根据需求调整PDF转图像的DPI等参数来达到想要的behavior;但是多次重复相同输入,检测结果肯定是不会波动的
@guici123 您好,这种波动属于正常的,输入变化了检测结果肯定会有细微变化,您可以根据需求调整PDF转图像的DPI等参数来达到想要的behavior;但是多次重复相同输入,检测结果肯定是不会波动的
理论上是不是dpi越高越好呢?另外我在使用您的方法转image和我的方法转image都是设置了600
@guici123 您好,这种波动属于正常的,输入变化了检测结果肯定会有细微变化,您可以根据需求调整PDF转图像的DPI等参数来达到想要的behavior;但是多次重复相同输入,检测结果肯定是不会波动的
理论上是不是dpi越高越好呢?另外我在使用您的方法转image和我的方法转image都是设置了600
这个也没有详细测试过,微调数据的DPI在72-200之间,但是DPI越高细节会越清楚,可能会更好
@guici123 您好,这种波动属于正常的,输入变化了检测结果肯定会有细微变化,您可以根据需求调整PDF转图像的DPI等参数来达到想要的behavior;但是多次重复相同输入,检测结果肯定是不会波动的
理论上是不是dpi越高越好呢?另外我在使用您的方法转image和我的方法转image都是设置了600
这个也没有详细测试过,微调数据的DPI在72-200之间,但是DPI越高细节会越清楚,可能会更好
测试了200,300,600三种dpi,发现dpi低的话会更准一些
@guici123 您好,这种波动属于正常的,输入变化了检测结果肯定会有细微变化,您可以根据需求调整PDF转图像的DPI等参数来达到想要的behavior;但是多次重复相同输入,检测结果肯定是不会波动的
理论上是不是dpi越高越好呢?另外我在使用您的方法转image和我的方法转image都是设置了600
这个也没有详细测试过,微调数据的DPI在72-200之间,但是DPI越高细节会越清楚,可能会更好
测试了200,300,600三种dpi,发现dpi低的话会更准一些
感谢反馈!
在输入同样的图片的时,几次测试结果不一致,时好时坏,请问是什么原因导致的呢?有什么方法可以使结果稳定吗?