hhba / mapa76

Plataforma de investigación periodística
http://analice.me/
31 stars 8 forks source link

Detección de documentos duplicados #58

Closed munshkr closed 10 years ago

munshkr commented 12 years ago

Es facil ver si un documento es duplicado o no. Podemos guardar un hash MD5 del texto plano procesado en cada documento, y en la parte de Normalización, se chequea si el hash del documento que se está procesando coincide con el de otro documento existente.

Lo que me pregunto es... qué hacemos ahí. Cancelamos ese documento? Como le avisamos al usuario que ese documento es un duplicado de otro?

malev commented 12 years ago

Sii mas vale que lo cancelamos!!

marianet commented 11 years ago

Para mí, si está en el mismo usuario deberíamos avisarle y usar el que ya está subido. Si está en otro usuario, es más complejo. Habría que pensarlo un poco.

malev commented 11 years ago

Qué tan necesario es esto? Lo agregamos en el planning?

marianet commented 11 years ago

No es prioridad El oct 8, 2013 10:18 AM, "Marcos Vanetta" notifications@github.com escribió:

Qué tan necesario es esto? Lo agregamos en el planning?

— Reply to this email directly or view it on GitHubhttps://github.com/hhba/mapa76/issues/58#issuecomment-25888572 .