xuxoramos / score-respuesta-inai

Evaluación de acceso a la información
0 stars 2 forks source link

Crear árbol de decisión entre RESPUESTA, ARCHIVO_RESPUESTA, RESPUESTA_REAL #25

Closed xuxoramos closed 4 years ago

xuxoramos commented 4 years ago

Hay que hacerlo, ni pedo.

xuxoramos commented 4 years ago

Consideraremos solo las respuestas a solicitudes que estén en la categoría de Entrega de información en medio electrónico debido a que son éstas las que están bajo sospecha de que la respuesta y el adjunto tengan info diferente.

Primero duplicar la columna RESPUESTA en RESPUESTA_REAL.

_IMPORTANTE: Antes de cerrar este issue debemos determinar una taxonomía final para las calidades de respuesta como se solicitó en #19 y que @rafaelortegar completó en este notebook._

if (RESPUESTA = 'Entrega de información en medio electrónico' OR RESPUESTA = 'La información está disponible públicamente') AND (
    (ARCHIVO = link regresa 'not found' OR ARCHIVO = link regresa página en blanco) OR
    (ARCHIVO es ZIP AND ZIP contiene 0 archivos) OR
    (ARCHIVO es ZIP AND ZIP contiene < 5 archivos AND todos son PDF AND cualquier PDF contiene palabras definidas en diccionario) OR
    ((ARCHIVO es PDF OR DOC OR DOCX) AND ARCHIVO contiene palabras definidas en diccionario)
then
    RESPUESTA_REAL = 'Sin respuesta'

Pregunta para validar con Juanito: el cuestionamiento que tenemos con los adjuntos es solo para solicitudes con respuesta "Entrega de info en medio electrónico"? o consideramos que pueden haber otros tipos de respuesta y de todos modos tener PDFs que dentro digan "confidencial" y la madre?

dvilla88 commented 4 years ago

Hola Xuxo, Considerando que hasta ahora solo tenemos descargados los archivos PDF y éstos han sido a lo únicos a lo que les hemos hecho la extracción de texto por que asi lo definimos en etapas previas, se hace la siguiente corrección en la regla de negocio.

if (RESPUESTA = 'Entrega de información en medio electrónico' OR RESPUESTA = 'La información está disponible públicamente') AND 
        (
        (ARCHIVO = link regresa 'not found' OR ARCHIVO = link regresa página en blanco) OR
        (ARCHIVO es ZIP AND ZIP contiene 0 archivos) OR
        (ARCHIVO es ZIP AND ZIP contiene < 5 archivos) OR
        ((ARCHIVO es PDF) AND ARCHIVO contiene palabras definidas en diccionario)
        )
    then
        RESPUESTA_REAL = 'Sin respuesta'

Nota: Para los archivos ZIP solo se hizo el conteo de cuantos archivos contenían, adicionalemente se levanto un issue para hacer la descarga y extracción de texto contenido en estos archivos de manera tentativa en caso de no obtener resultados satisfactorios con lo que tenemos ahora #21.

xuxoramos commented 4 years ago

De acuerdo con conversación con @jmcasanueva, está bien que estemos "dudando" solamente de las respuestas marcadas con el estado "Entrega de información en medio electrónico" y "La información está disponible públicamente". El resto no estamos dudando y estamos tomando lo que aparece en RESPUESTA como face value.