Đồ án môn nhận dạng làm về bài báo Anime Sketch Coloring with Swish-gated ResidualU-net and Spectrally Normalized GAN,source: http://www.engineeringletters.com/issues_v27/issue_3/EL_27_3_01.pdf
dataset: danbooru2017, chọn ra 18560 tấm, resize, truncate to squared image and extract sketches
evaluation metrics
PSNR peak signal to noise đỉnh điểm tỉ lệ giữa nhiễu và tín hiệu gốc.
Định nghĩa dựa trên MSE(sai sốt toàn phương trung bình). Cho 2 ảnh, ảnh gốc, I, và ảnh được tạo gần giống với ảnh gốc, . MSE được tính như sau
PSNR(đơn vị dB) được định nghĩa như sau:
với $MAX_I$ là giá trị lớn nhất của giá trị màu, vd: với màu 8 bit thì $MAX_I$ sẽ là 255 . Với màu có B bit thì $MAX_I$ sẽ là 2^B-1
TL:DR trên wikipedia
đối với ảnh RGB vẫn làm như cách trên. với các không gian màu khác thì sẽ đo PSNR trên từng channel.
SSIM structural similarity
The 2004 SSIM paper has been cited over 20,000 times according to Google Scholar,[2] making it one of the highest cited papers in the image processing and video engineering fields.
đánh giá trên 3 tiêu chí luminance (sáng), constrast(tương phản ), structure(cấu trúc).
SSIM được tính ra bằng cách nhân các công thức đo đạt ở trên lại.
với alpha,beta,gamma là độ quan trọng của các độ đo, mặc định thì 3 giá trị đó là 1.
với c3 = c2/2 (theo bài báo gốc) thì có thể rút gọn lại thành.
_muy là trung bình cộng,
ơ là phương sai, = (1/(N-1))sum_{i=1}^{N}(x_i-_muy_x)
FSIM feature similarity
PC
features are perceived at points where the Fourier components are maximal in phase. Based on the
physiological and psychophysical evidences, PC theory y provides a simple but biologically plausible
model of how mammalian visual systems detect and identify features in an image.
Convo ảnh trắng đen với 2 filter chẳn và lẻ riêng biệt.
is a real number within 0 ~ 1
GM
chọn cặp G_x G_y theo bản bên dưới
FSIM
2 phần
gộp 2 phần này lại ta có SL
Tính FSIM được thông qua 1 công thức nữa. Với PC_m = max(PC_1(X),PC_2(X))
FSIMc FSIM incorporates image chrominance information
chuyển thành YIQ color space,
thêm S_I S_Q và công thức cuối cùng.
Compare performance by 3 of the above metric càng cao càng tốt.
FID Frechet inception distance
tính Frechet Distance khi đưa ảnh qua Inception và lấy đầu ra 8x8x2048
Gaussian Distribution....
Tr(.) là hàm Trace trong LA(Linear Algebra - Đại số tuyến tính), tổng của các số tại đường chéo của ma trận.
dataset: danbooru2017, chọn ra 18560 tấm, resize, truncate to squared image and extract sketches
evaluation metrics
PSNR peak signal to noise đỉnh điểm tỉ lệ giữa nhiễu và tín hiệu gốc. Định nghĩa dựa trên MSE(sai sốt toàn phương trung bình). Cho 2 ảnh, ảnh gốc, I, và ảnh được tạo gần giống với ảnh gốc, . MSE được tính như sau PSNR(đơn vị dB) được định nghĩa như sau:
với $MAX_I$ là giá trị lớn nhất của giá trị màu, vd: với màu 8 bit thì $MAX_I$ sẽ là 255 . Với màu có B bit thì $MAX_I$ sẽ là 2^B-1 TL:DR trên wikipedia
đối với ảnh RGB vẫn làm như cách trên. với các không gian màu khác thì sẽ đo PSNR trên từng channel.
SSIM structural similarity
The 2004 SSIM paper has been cited over 20,000 times according to Google Scholar,[2] making it one of the highest cited papers in the image processing and video engineering fields.
đánh giá trên 3 tiêu chí luminance (sáng), constrast(tương phản ), structure(cấu trúc).
SSIM được tính ra bằng cách nhân các công thức đo đạt ở trên lại.
với alpha,beta,gamma là độ quan trọng của các độ đo, mặc định thì 3 giá trị đó là 1.
với c3 = c2/2 (theo bài báo gốc) thì có thể rút gọn lại thành.
_muy là trung bình cộng,
ơ là phương sai, = (1/(N-1))sum_{i=1}^{N}(x_i-_muy_x)
FSIM feature similarity
PC
GM
FSIM 2 phần
gộp 2 phần này lại ta có SL
chuyển thành YIQ color space,
thêm S_I S_Q và công thức cuối cùng.
Compare performance by 3 of the above metric càng cao càng tốt.
FID Frechet inception distance