¿Cómo funciona el ROI pooling del Fast - RCNN?

criloal23 commented 4 years ago

Nombres y apellidos

Cristian López Del Alamo

Contexto adicional sobre la pregunta

La respueta puede ser encontrada aquí: https://towardsdatascience.com/fast-r-cnn-for-object-detection-a-technical-summary-a0ff94faa022 Sin embargo, la mejor explicación es la que se lleva el punto

Mi posible respuesta

Si crees tener una respuesta pero no estás seguro, colócala aquí.

quebin31 commented 4 years ago

roi

Supongamos que tenemos un mapa de características como el que se muestra arriba, con dos propuestas de bounding boxes y digamos que N = 2, por lo mencionado en [1] cada bounding box es separada en sub-ventanas de tamaño h/H por w/W, donde H y W son configurables pero en Fast-RCNN generalmente ambos son 7, luego de la separación se procede a realizar la operación de pooling (por ejemplo max pooling). Dado que existen H x W sub-ventanas para cualquier bounding box siempre se generará una matriz de tamaño H x W. Esto se realiza para cada bounding lo que generaría un tensor de NxHxWxM, donde ahora M es el número de mapas de características de la anterior convolución. Luego de esta parte lo que tengo entendido es que se aplana cada HxWxM y se pasa la fully connected N veces, por cada bounding box.

dccopah commented 4 years ago

Daniela Ccopa Hancco

La capa de agrupación de ROI es un caso especial de la capa de agrupación de pirámides espaciales (SPP) con un solo nivel de pirámide. La capa básicamente divide las características de las ventanas de propuesta seleccionadas (que provienen del algoritmo de propuesta de región) en subventanas de tamaño H por W y realiza una operación de agrupación en cada una de estas subventanas. Esto da lugar a características de salida de tamaño fijo de tamaño (H x W) independientemente del tamaño de entrada. H y W se eligen de modo que la salida sea compatible con la primera capa totalmente conectada de la red. Al igual que la agrupación regular, la agrupación de ROI se lleva a cabo en cada canal individualmente.

imagen

skdi commented 4 years ago

André Mogrovejo Martínez

La ROI Pooling Layer utiliza un Max pooling para convertir las características dentro de cada región de interés valida en un pequeño mapa de características, definimos cada ROI por la tupla (r,c,h,w) que especifican la esquina superior izquierda, la altura y el ancho. Fast R-CNN tiene dos vectores de salida por cada ROI: las probabilidades de softmax y cada bounding box por clase. Decimos que la ROI layer es un caso espacial de la capa spatial pyramid pooling. ROI

En este Gif se nota el proceso claramente paso a paso. fuente: https://arxiv.org/pdf/1504.08083.pdf

heygonzalocaira commented 4 years ago

Gonzalo Alejandro Caira Aguilar

La capa ROI (región de interés) se introduce en Fast R-CNN y es un caso especial de capa de agrupación de pirámides espaciales (spatial pyramid pooling layer) que se introduce en la agrupación de pirámides espaciales en redes convolucionales profundas para reconocimiento visual. La función principal de la capa de ROI es reformar las entradas con un tamaño arbitrario en una salida de longitud fija debido a la restricción de tamaño en las capas totalmente conectadas.

ROI es importante en Fast R-CNN porque

Puede acelerar significativamente el tiempo de entrenamiento y prueba
Permite entrenar sistemas de detección de objetos de manera integral

Debido al uso de esta capa pooling, el tiempo de entrenamiento y prueba es más rápido en comparación con la arquitectura R-CNN original y, por lo tanto, el nombre Fast R-CNN.

Fuente

brayan1408 commented 4 years ago

Brayan Maguiña del Castillo Acotando con mis compañeros, gracias a dicho RoI pooling mejoró la velocidad del procesamiento ya que luego de este RoI pooling uno de los resultados es que la salida de una lista de rectángulos de diferentes tamaños se obtiene rápidamente una lista de mapas de características correspondiente con un tamaño fijo, de esta forma la dimensión de la salida, no depende del tamaño del mapa de características de la entrada ni del tamaño de la propuesta de región. De esta forma aumentó significativamente la velocidad ya que si hay múltiples propuestas de objetos en el marco, se puede el mismo mapa de características para todas ellas.

quebin31 / stack-tia