¿Cómo se generan las 4k salidas en la capa reg(regresion) y los 2k puntajes en la capa cls(clasificación) en una Faster R-CNN?

quebin31 / stack-tia

Stack TIA (Preguntas y respuestas)

2 stars 0 forks source link

¿Cómo se generan las 4k salidas en la capa reg(regresion) y los 2k puntajes en la capa cls(clasificación) en una Faster R-CNN? #10

Open FranklinCncr opened 4 years ago

FranklinCncr commented 4 years ago

Nombres y apellidos

Franklin Canaza Ccori

Contexto adicional sobre la pregunta

El artículo menciona que existe una pequeña red después de la ultima capa de convolución compartida que toma como entrada una región de n x n que se va moviendo en el mapa de características, también indica que se pueden obtener hasta k propuestas, pero no llego a comprender como se generan las 4k salidas que codifican las coordenadas de las k-boxes en la capa reg(regresion) y los 2k puntajes en la capa cls(clasificación).

smallred

Mi posible respuesta

quebin31 commented 4 years ago

¿Cómo se generan? Por lo que entendí esas ultimas capas realmente son fully connected, entonces simplemente aplastas tu matriz, y la red aprende a generar estos vectores, lo curioso es que aprende a realizarlo en méltiples posiciones de la imagen (ya que entran ventanas deslizantes de nxn), básicamente es invariante a translaciones.

limonadev commented 4 years ago

No solo es el hecho de ser FC, sino además que usa los anchors que regulan las cajas propuestas, tratando de encajarlas lo mejor posible a un conjunto de hiperparámetros (en el artículo menciona escalas y ratios). En otras palabras tratará de mover las cajas de manera que encajen con "rectángulos" definidos en base a distintas escalas y ratios, usando la pérdida con respecto al ground-truth. Esa pérdida no solo usa el IoU con respecto a los ground-truth sino además la existencia (o no) de objetos en esa caja. Para eso se usa la capa cls, que genera un vector 2k porque tiene por cada k propuesta dos valores, la probabilidad de hallar y no hallar un objeto en esa propuesta específica (es un binary softmax).

dccopah commented 4 years ago

Daniela Ccopa Hancco

La Faster R-CNN está compuesta por dos redes: una RPN( Region Proposal Network) y una Faster R-CNN. En la RPN introduce el concepto de anchor boxes, que lo que hace es anclar un centro(un pixel) y en base a ese pixel anclado generan varias cajas centradas en el pixel, en el artículo el autor menciona hasta 9 cajas centradas por cada pixel anclado; despues dimencionan cada una de las cajas en un vector de 256 dimensiones y estos vectores son enviados a dos full conected una para la clasificación y otra para la regresion. El vector de 256d pasa a al clasificador y genera 2k puntajes: porque nos dira si está o no está el objeto. Y cuando el vector de 256d pasa al regresor de Bounding Box nos genera 4k puntajes: porque son 4k coordenadas(x,y,w,h).

imagen

skdi commented 4 years ago

André Mogrovejo Martínez

2k4k

Un ancla es puesta en cada sliding window, por defecto se usan 3 ratios de aspecto y 3 escalas, con un k=9, para un mapa de características convolucional de tamaño WxH, obtenemos WxHxk anclas en total, por lo tanto tenemos 2k puntajes y 4k de pares de coordenadas para las sliding windows que se desplazan en la imagen. fuente: https://arxiv.org/pdf/1506.01497.pdf