datosgobar / data-cleaner

Librería en python para para limpieza de datos, según estándares del Equipo de Datos Argentina.
http://data-cleaner.readthedocs.io/
MIT License
30 stars 12 forks source link

Analizar formas de uso de la regla de clustering y su cambio de nombre #6

Open abenassi opened 8 years ago

abenassi commented 8 years ago

(a) repensar el nombre de la regla de clustering, ya que hemos hablado de bajarle su nivel de enforcement -ya no aplicaría utilizarlo para la mayoría de los strings, necesariamente, así que su nombre le queda grande

(b) repensar el algoritmo de fingerprint, puede haber formas más inocentes y menos inocentes de usarlo, por ejemplo añadiendo o no el orden de los tokens como criterio de clusterización