Open limonadev opened 4 years ago
Justo mencioné eso en otra respuesta, y me pareció interesante también, no digo que tenga la verdad absoluta pero parece que es invariante dado que la "mini-red" recibe como entradas pequeñas ventanas deslizantes de la imagen original (osea el mapa de características), y aprende en base a eso, entonces realmente no va a importar donde este una característica, la red ya aprendió a detectarlas. Creo yo que eso es lo que la hace invariante.
EDIT: Terminando de aclarar la idea, los anchors son de escalas y tamaños fijos y creo que eran 9, lo que me parece que lo hace invariante es realmente como aprende la red,
En realidad, los anchors no son en si mismos los que mantienen las escalas y tamaños fijo, sino que son zonas que se adaptan a los hiperparámetros de escalas y ratios. Es decir, definimos las escalas y los ratios, los anchors se crean posteriormente en cada "ventana" ajustándose a esos hiperparámetros.
Respecto a lo de la invarianza, podríamos argumentar que es por el mismo hecho de pasar a través de una convolución luego de disminuir su dimensionalidad, pero no me convence que sea únicamente ese factor (combinado con la capa FC que lo aplana para generar las 4k salidas). Quizá sea más por el hecho de trabajar sobre un mapa de características generado por la capa compartida, la red podría haber aprendido allí como manejar objetos en distintos lugares.
Respecto a lo de la invarianza, podríamos argumentar que es por el mismo hecho de pasar a través de una convolución luego de disminuir su dimensionalidad, pero no me convence que sea únicamente ese factor (combinado con la capa FC que lo aplana para generar las 4k salidas). Quizá sea más por el hecho de trabajar sobre un mapa de características generado por la capa compartida, la red podría haber aprendido allí como manejar objetos en distintos lugares.
También, pero la mini-red también actúa como una convolución, básicamente aprende por cada ventana pequeñita
Respecto a lo de la invarianza, podríamos argumentar que es por el mismo hecho de pasar a través de una convolución luego de disminuir su dimensionalidad, pero no me convence que sea únicamente ese factor (combinado con la capa FC que lo aplana para generar las 4k salidas). Quizá sea más por el hecho de trabajar sobre un mapa de características generado por la capa compartida, la red podría haber aprendido allí como manejar objetos en distintos lugares.
También, pero la mini-red también actúa como una convolución, básicamente aprende por cada ventana pequeñita
Pero si mal no recuerdo, era el pooling quien generaba la invarianza a la traslación en las CNN, no la convolución. Se supone que era una de las mayores ventajas del pooling
Sí, realmente no es que actué como una convolución, pero se va moviendo a través de la imagen, aprende a detectar sin importar en que parte este.
Nombres y apellidos
Ademir Villena Zevallos
Contexto adicional sobre la pregunta
En el artículo de Faster RCNN se menciona la invarianza a la traslación de los anchors usados en la RPN de la Faster RCNN, mencionando que es una ventaja con respecto al método MultiBox. Sin embargo, no explica claramente la razón de esta invarianza.
Mi posible respuesta
Si crees tener una respuesta pero no estás seguro, colócala aquí.