TQTQliu / MVSGaussian

[ECCV 2024] MVSGaussian: Fast Generalizable Gaussian Splatting Reconstruction from Multi-View Stereo
https://mvsgaussian.github.io/
MIT License
397 stars 19 forks source link

对训练指标的一些疑问 #50

Closed yyy-boop closed 1 month ago

yyy-boop commented 1 month ago

您好!感谢您出色的工作!在使用python lib/render.py -c -m output/scene1 --iteration -p python lib/metrics.py -m output/scene1这两行代码后我得到了
PSNR : 11.0347091 SSIM : 0.4105126 LPIPS: 0.6871817 对照您在readme里给出的参考表,我原以为这个结果很差,但是从python lib/render.py -c -m output/scene1 -p -v代码中导出的视频显示来看,结果似乎并不错。 屏幕截图 2024-09-15 104230

能否请您详细地解释一下这三个指标的含义,以及其数值大小可能产生的影响?

TQTQliu commented 1 month ago

谢谢您对我们工作的关注。 之所以会得到比较差的指标,可能是因为先生成了video,然后再算的指标。但实际上video的每一帧是没有GT的,所以这个时候得到的指标是没有意义的。您可以先删掉文件夹output/scene1/test,然后重新运行:

python lib/render.py -c -m output/scene1 --iteration <iter> -p <path to save ply>
python lib/metrics.py -m output/scene1

此时得到的指标便是测试视角(有对应的GT)的指标。 类似的问题可见这里

指标的含义: PSNR/SSIM/LPIPS是常用图像评价指标。PSNR即峰值信噪比,与MSE(均方误差)成反比,是一种逐像素计算、比对的指标,其值越高,表示图像质量越好。SSIM旨在衡量两幅图像的结构相似程度,其值介于0和1之间,值越大表示两幅图像越相似。SSIM的计算涉及到亮度、对比度和结构三个方面的比较。LPIPS是一个基于深度学习的图像质量评价指标,通常使用预训练的CNN(如VGG或AlexNet)作为特征提取器,然后将提取的特征表示作为输入,通过一个距离度量函数计算图像之间的相似性得分。LPIPS的得分范围通常是0到1之间,数值越小表示图像的感知质量越高。

PSNR:逐像素计算,简单直观,数值越大图像质量越好。 SSIM:考虑图像结构,更符合人眼视觉特性,数值越大图像质量越好。 LPIPS:基于深度学习,能够捕捉复杂的图像特征和感知差异,数值越小表示感知差异越小即图像质量越好。

yyy-boop commented 1 month ago

谢谢您对我们工作的关注。 之所以会得到比较差的指标,可能是因为先生成了video,然后再算的指标。但实际上video的每一帧是没有GT的,所以这个时候得到的指标是没有意义的。您可以先删掉文件夹output/scene1/test,然后重新运行:

python lib/render.py -c -m output/scene1 --iteration <iter> -p <path to save ply>
python lib/metrics.py -m output/scene1

此时得到的指标便是测试视角(有对应的GT)的指标。 类似的问题可见这里

指标的含义: PSNR/SSIM/LPIPS是常用图像评价指标。PSNR即峰值信噪比,与MSE(均方误差)成反比,是一种逐像素计算、比对的指标,其值越高,表示图像质量越好。SSIM旨在衡量两幅图像的结构相似程度,其值介于0和1之间,值越大表示两幅图像越相似。SSIM的计算涉及到亮度、对比度和结构三个方面的比较。LPIPS是一个基于深度学习的图像质量评价指标,通常使用预训练的CNN(如VGG或AlexNet)作为特征提取器,然后将提取的特征表示作为输入,通过一个距离度量函数计算图像之间的相似性得分。LPIPS的得分范围通常是0到1之间,数值越小表示图像的感知质量越高。

PSNR:逐像素计算,简单直观,数值越大图像质量越好。 SSIM:考虑图像结构,更符合人眼视觉特性,数值越大图像质量越好。 LPIPS:基于深度学习,能够捕捉复杂的图像特征和感知差异,数值越小表示感知差异越小即图像质量越好。

yyy-boop commented 1 month ago

谢谢您对我们工作的关注。之所以会得到比较差的指标,可能是因为先生成了video,然后再算的指标。但实际上video的每一帧是没有GT的,所以这个时候得到的指标是没有意义的。您可以先删掉文件夹output/scene1/test,然后重新运行:

python lib/render.py -c -m output/scene1 --iteration <iter> -p <path to save ply>
python lib/metrics.py -m output/scene1

此时得到的指标便是测试视角(有对应的GT)的指标。类似的问题可见这里。 指标的含义: PSNR/SSIM/LPIPS是常用图像评价指标。PSNR即峰值信噪比,与MSE(均方误差)成反比,是一种逐像素计算、比对的指标,其值越高,表示图像质量越好。SSIM旨在衡量两幅图像的结构相似程度,其值介于0和1之间,值越大表示两幅图像越相似。SSIM的计算涉及到亮度、对比度和结构三个方面的比较。LPIPS是一个基于深度学习的图像质量评价指标,通常使用预训练的CNN(如VGG或AlexNet)作为特征提取器,然后将提取的特征表示作为输入,通过一个距离度量函数计算图像之间的相似性得分。LPIPS的得分范围通常是0到1之间,数值越小表示图像的感知质量越高。 PSNR:逐像素计算,简单直观,数值越大图像质量越好。SSIM:考虑图像结构,更符合人眼视觉特性,数值越大图像质量越好。LPIPS:基于深度学习,能够捕捉复杂的图像特征和感知差异,数值越小表示感知差异越小即图像质量越好。

感谢您的回复,这对我帮助很大