Open IMAbril opened 8 months ago
The American Sign Language letter database of hand gestures represent a multi-class problem with 24 classes of letters (excluding J and Z which require motion).
Formato de los datos: CSV format with labels and pixel values in single rows. The dataset format is patterned to match closely with the classic MNIST Info sobre MNIST Artículo explicativo
Letras que se representan con movimiento y no con imagenes: Each training and test case represents a label (0-25) as a one-to-one map for each alphabetic letter A-Z (and no cases for 9=J or 25=Z because of gesture motions).
The training data (27,455 cases) and test data (7172 cases) are approximately half the size of the standard MNIST but otherwise similar with a header row of label, pixel1,pixel2….pixel784 which represent a single 28x28 pixel image with grayscale values between 0-255.
Realizar un análisis exploratorio de los datos. Entre otras cosas, deben analizar la cantidad de datos, cantidad y tipos de atributos, cantidad de clases de la variable de interés (letras en lenguaje de señas) y otras características que consideren relevantes. Además se espera que con su análisis puedan responder las siguientes preguntas:
[ ] a. ¿Cuáles parecen ser atributos relevantes para predecir la letra a la que corresponde la seña? ¿Cuáles no? ¿Creen que se pueden descartar atributos?
[ ] b. ¿Hay señas que son parecidas entre sí? Por ejemplo, ¿Qué es más fácil de diferenciar: la seña de la E de la seña de la L o la seña de la E de la seña de la M?
[ ] c. Tomen una de las clases, por ejemplo la seña correspondiente a la C, ¿Son todas las imágenes muy similares entre sí?
[ ] d. Este dataset está compuesto por imágenes, esto plantea una diferencia frente a los datos que utilizamos en las clases (por ejemplo, el dataset de Titanic). ¿Creen que esto complica la exploración de los datos?
Importante: las respuestas correspondientes a los puntos 1.a, 1.b y 1.c deben ser justificadas en base a gráficos de distinto tipo.