anselmorenato / cdpedia

Automatically exported from code.google.com/p/cdpedia
0 stars 0 forks source link

El scrapeo de la wikipedia tiene que ser más consciente de la calidad de lo bajado #124

Closed GoogleCodeExporter closed 9 years ago

GoogleCodeExporter commented 9 years ago
Esto es para minimizar la posibilidad de vandalismo y mejorar la calidad del 
resultado final.

La gente de wikimedia quedó en contactarnos si armaban algo a nivel de tags en 
las páginas para poder decidir mejor si la página "está buena o no", pero 
hay algo que se puede hacer, no es tan complicado (creo) y mejoraría bastante 
el estado de situación.

Esto es, para cada página que se va a bajar, no bajar la última versión, 
sino la última versión *editada por un usuario registrado*. Esto es porque la 
gran mayoría de los vandalismos son hechos desde usuarios no registrados 
(normalmente, desde IPs, no "usuarios").

O aún mejor (pensando en voz alta): descreer de una versión editada "no por 
un usuario registrado" si es más nueva que (digamos), 7 días (si en una 
semana la página no fue "revertida" asumimos que no era vandalismo).

Original issue reported on code.google.com by facundob...@gmail.com on 27 Jun 2011 at 1:51

GoogleCodeExporter commented 9 years ago

Original comment by facundob...@gmail.com on 23 Jul 2011 at 9:33

GoogleCodeExporter commented 9 years ago
-obtiene el historial de la pagina.
por cada version de la pagina:
 -busca el nombre del autor (cuando es un user registrado funciona, la regexp para user no registrado no funciona aun)
 -obtiene el id de la revision generada por ese autor, que es necesario para poder acceder a la version de la pagina generada por determinado autor.

Original comment by ten...@gmail.com on 25 Feb 2012 at 6:26

Attachments:

GoogleCodeExporter commented 9 years ago
sigo trabajando en este. me lo asignan? en unos días lo tengo!

Original comment by ten...@gmail.com on 28 Feb 2012 at 4:59

GoogleCodeExporter commented 9 years ago
Ahí te lo asigné. Todo bien si te lo asignabas vos mismo!

De cualquier manera, gracias!

Slds.

Original comment by facundob...@gmail.com on 4 Mar 2012 at 8:03

GoogleCodeExporter commented 9 years ago
Esto ya está adentro y super probado!

Original comment by facundob...@gmail.com on 28 Apr 2012 at 6:34