EDA de calidad de respuestas

xuxoramos / score-respuesta-inai

Evaluación de acceso a la información

0 stars 2 forks source link

EDA de calidad de respuestas #24

Open xuxoramos opened 4 years ago

xuxoramos commented 4 years ago

NOTA: Este issue no es para el sprint del 18 de Junio al 25 de Junio.

Una vez procesados los textos extraídos de los adjuntos en PDF especificados en #18 y #23, se debe realizar un EDA que responda lo siguiente:

Dada las variables calidad_respuesta y calidad_respuesta_real definida en #19 , comparar ambas variables y determinar si hay diferencia estadísticamente significativa entre una y otra - la hipótesis es que mediante los adjuntos se rechazan más solicitudes de las que reporta el INAI.
Si el resultado no es contundente, incorporar al análisis los archivos PDF comprimidos en adjuntos ZIP como se describe en #21

A DISCUSIÓN: qué feature se puede generar de este análisis? Es posible que ninguno, dado que esto es en el agregado de las respuestas y no en las individuales.

xuxoramos commented 4 years ago

De acuerdo a conversación con @jmcasanueva, la taxonomía de calidad de respuestas, queda como:

satisfactoria: cuando INAI responde con archivo anexo, o da seguimiento a solicitud o notifica que está lista para entregar.
no satisfactoria: cuando INAI reserva o clasifica total o parcialmente la info, o no da trámite a la solicitud, o responde que no existe la información.
en proceso: cuando INAI anuncia que la solicitud tardará más tiempo que lo obligado en la ley de transparencia.

Esta nueva taxonomía será usada para generar las 2 variables calidad_respuesta y calidad_respuesta_real.

xuxoramos commented 4 years ago

Se reabre este issue para incluir el análisis estadístico ahora de las variables de calidad de respuesta y determinar si existe diferencia estadísticamente significativa entre ambas.

NOTA IMPORTANTE: Es importante considerar que solo se obtuvo el texto extraído de PDFs de los adjuntos en el 50% de las respuestas. Ergo, todo el análisis debe contemplar este factor.

Remark de @dvilla88 : la taxonomía cubre todos los casos, por lo que este 50% solo afectaría a las respuestas que están marcadas como "Información disponible públicamente" y "Información enviada en formato electrónico", y son las únicas que tienen el riesgo de transicionar a "Sin respuesta". El análisis debe contemplar esta transición entre ambas variables.

xuxoramos commented 4 years ago

Para aclarar: el análisis estadístico entre calidades de respuesta implica responder las siguientes preguntas:

Qué dependencias tienen discrepancia entre ambas variables? Se concentran en alguna dependencia?
En qué fechas hay más incidentes de discrepancias de ambas variables?
Qué fechas+dependencias concentran estas discrepancias?