civio / quiencobralaobra

¿Quién cobra la obra?
GNU Affero General Public License v3.0
7 stars 0 forks source link

Mejorar la descripción de contratos #63

Closed rauldiazpoblete closed 7 years ago

rauldiazpoblete commented 7 years ago

En bastantes casos award.description resulta poco descriptivo al aparecer descripciones como "Obras arriba indicadas" (bastante frecuente), "Ejecución de las obras descritas en el sumario", "Prestación de las obras descritas en el sumario", y similares. @EvaBelmonte comenta que para solucionarlo, podemos detectar estos casos y usar properties['Título'] como descripción. No obstante, si hacemos eso deberemos formatear properties['Título'] para eliminar la entradilla habitual y convertir, por ejemplo "Resolución de la Entidad Pública Empresarial Administrador de Infraestructuras Ferroviarias de fecha 29 de diciembre de 2009, por la que se anuncia la adjudicación del contrato de obras de ejecución del proyecto de construcción de de plataforma del Nuevo Acceso Ferroviario de Alta Velocidad de Levante. Tramo: Albacete-Variante de Alpera. Fase II." en algo como "Construcción de de plataforma del Nuevo Acceso Ferroviario de Alta Velocidad de Levante. Tramo: Albacete-Variante de Alpera. Fase II."

dcabo commented 7 years ago

He estado mirando este tema: he ordenado las descripciones por longitud, de menor a mayor, y he marcado las que se repetían, para encontrar bloques de descripciones idénticas, que es un buen indicador de que son de pega.

En algún momento se comentó usar el título si la descripción oficial era menor de una determinada longitud: las mayores cadenas "de pega" son "Prestación de las obras descritas en el sumario" y "Ejecución de las obras descritas en el Proyecto", con 47 carácteres. Por debajo de esto hay a menudo cadenas de pega, pero a veces hay descripciones válidas como "Construcción del Centro Integral de Alzheimer", y el título no aporta más.

Para extraer la parte relevante de los títulos que vayamos a usar, podemos buscar marcas como (así a ojo, tras un primer vistazo), en orden de prioridad:

dcabo commented 7 years ago

He probado a reemplazar todas las descripciones de menos de 48 carácteres por lo que podemos rascar del título. Es decir, en vez de ver si dice cosas como "arriba indicada" o "lo del título", que es frágil, sustituyo todas las descripciones cortas. Parece la mejor opción, porque incluso cuando la descripción original tenía cierto sentido ("Centro de Alzheimer") en el título viene básicamente lo mismo, así que parece que ganamos siempre.

Del título rascamos usando las expresiones que mencionaba en el comentario anterior.

Un resumen de la situación: descripción original, título, y descripción a utilizar, sacada a partir del título. @EvaBelmonte, ¿le echas un ojo rápido?

Descripciones a partir de títulos.xlsx

EvaBelmonte commented 7 years ago

En principio parece la mejor solución. Puede ser que, alguna vez, el trámite que hemos hecho de partir descripciones para que cada lote tenga la suya se deshaga, como en las filas 72 a 77.

Y la 46 lo empeora. Pero echando un vistazo solo he visto esos dos casos en los que algo chirríe de forma clara.

dcabo commented 7 years ago

Ok, voy a excluir a mano esos dos casos, y tiro para adelante. Si veis algún otro después me decís, pero estamos ya rizando el rizo.