data-com / discussions

http://data-com.github.io
5 stars 0 forks source link

cnn解释 #32

Open necogy opened 3 years ago

necogy commented 3 years ago

在图像处理中, Convolutional Neural Network是当下的图像处理的主流做法。

图像处理的关键在于提取特征,而图像的特征到底取哪一些更有代表性呢?

比如说一下的几个候选

  1. 图像中不同颜色的百分比

  2. 测量图像之间的像素值差异

---- 问题是单个像素不携带足够的图像语义信息, 相邻像素之间的差异通常是非常有用的特征。

相邻像素之间的差值称为图像梯度。

CNN在某种程度上收到了人类视觉处理的启发,初级视皮层(V1,亦称纹状皮层(Striate cortex))到纹外皮层(Extrastriate cortex,例如V2,V3,V4,V5等)的信息整合。CNN也是先处理低级特征,整合之后成为高级特征再最后做出判断。

在图像中,空间位置和与空间无关的信息(比如说某种pattern)是需要被模型学习的信息。如果我们把每一个PIXEL的信息都记录并学习,那么到最后会发生参数爆炸。在pixel比较少,任务相对简单的时候,全连接网络还勉强可以应对(比如说MNIST)。一旦使用我们熟知的图片pixel尺寸,全连接是无法胜任的。

那么如何在庞大的信息中提取到一些关键部分呢?比如说一张图里最重要的特征(8里有两个圈),怎样让模型知道该学哪些不该学哪些呢?

比如说一个4

necogy commented 3 years ago

not done yet