Closed xuxoramos closed 4 years ago
Consideraremos solo las respuestas a solicitudes que estén en la categoría de Entrega de información en medio electrónico
debido a que son éstas las que están bajo sospecha de que la respuesta y el adjunto tengan info diferente.
Primero duplicar la columna RESPUESTA en RESPUESTA_REAL.
_IMPORTANTE: Antes de cerrar este issue debemos determinar una taxonomía final para las calidades de respuesta como se solicitó en #19 y que @rafaelortegar completó en este notebook._
if (RESPUESTA = 'Entrega de información en medio electrónico' OR RESPUESTA = 'La información está disponible públicamente') AND (
(ARCHIVO = link regresa 'not found' OR ARCHIVO = link regresa página en blanco) OR
(ARCHIVO es ZIP AND ZIP contiene 0 archivos) OR
(ARCHIVO es ZIP AND ZIP contiene < 5 archivos AND todos son PDF AND cualquier PDF contiene palabras definidas en diccionario) OR
((ARCHIVO es PDF OR DOC OR DOCX) AND ARCHIVO contiene palabras definidas en diccionario)
then
RESPUESTA_REAL = 'Sin respuesta'
Pregunta para validar con Juanito: el cuestionamiento que tenemos con los adjuntos es solo para solicitudes con respuesta "Entrega de info en medio electrónico"? o consideramos que pueden haber otros tipos de respuesta y de todos modos tener PDFs que dentro digan "confidencial" y la madre?
Hola Xuxo, Considerando que hasta ahora solo tenemos descargados los archivos PDF y éstos han sido a lo únicos a lo que les hemos hecho la extracción de texto por que asi lo definimos en etapas previas, se hace la siguiente corrección en la regla de negocio.
if (RESPUESTA = 'Entrega de información en medio electrónico' OR RESPUESTA = 'La información está disponible públicamente') AND
(
(ARCHIVO = link regresa 'not found' OR ARCHIVO = link regresa página en blanco) OR
(ARCHIVO es ZIP AND ZIP contiene 0 archivos) OR
(ARCHIVO es ZIP AND ZIP contiene < 5 archivos) OR
((ARCHIVO es PDF) AND ARCHIVO contiene palabras definidas en diccionario)
)
then
RESPUESTA_REAL = 'Sin respuesta'
Nota: Para los archivos ZIP solo se hizo el conteo de cuantos archivos contenían, adicionalemente se levanto un issue para hacer la descarga y extracción de texto contenido en estos archivos de manera tentativa en caso de no obtener resultados satisfactorios con lo que tenemos ahora #21.
De acuerdo con conversación con @jmcasanueva, está bien que estemos "dudando" solamente de las respuestas marcadas con el estado "Entrega de información en medio electrónico" y "La información está disponible públicamente". El resto no estamos dudando y estamos tomando lo que aparece en RESPUESTA como face value.
Hay que hacerlo, ni pedo.