google-code-export / cdpedia

Automatically exported from code.google.com/p/cdpedia
1 stars 1 forks source link

No se scrapean todos los artículos de Namespaces #99

Open GoogleCodeExporter opened 9 years ago

GoogleCodeExporter commented 9 years ago
Como wikipedia no entrega un listado de todas las páginas en Namespaces, se 
utiliza el script listar_articulos_en_namespaces.py.
Este script recorre el listado /wiki/Especial:Todas buscando los links a los 
artículos, por ejemplo Categoría:Nacidos_en_1954 .
Luego scraper.py baja estos artículos.

El problema es que estos pueden estar divididos en varias páginas, en el 
ejemplo dado se muestran "las siguientes 200 páginas, de un total de 941".

(primera idea para) Solución:
Que listar_articulos_en_namespaces baje los artículos y corrobore (buscando si 
hay link a "siguiente" y "anterior") si tiene que bajar mas páginas, en caso 
de que sea así: bajarlas y modificar los nombres y los links que las apuntan.
Ejemplo:
En el caso mostrado, hay un link a: 
/index.php?title=Categor%C3%ADa:Nacidos_en_1954&pagefrom=D+ANGIO%2CPINO%0APINO+D
%27ANGI%C3%92 debe:
* guardar esta página como Nacidos_en_1954_2
* reemplazar el link en Nacidos_en_1954
* Ver si hay mas

Original issue reported on code.google.com by dmascialino on 6 Apr 2011 at 1:51

GoogleCodeExporter commented 9 years ago

Original comment by alecura on 22 May 2011 at 2:34

GoogleCodeExporter commented 9 years ago

Original comment by alecura on 22 May 2011 at 2:52

GoogleCodeExporter commented 9 years ago

Original comment by gringotu...@gmail.com on 16 Jun 2011 at 9:11

GoogleCodeExporter commented 9 years ago

Original comment by facundob...@gmail.com on 23 Jul 2011 at 9:27

GoogleCodeExporter commented 9 years ago
arreglado en r447

Original comment by dmascialino on 21 Apr 2012 at 12:36

GoogleCodeExporter commented 9 years ago
Lo vuelvo a abrir porque revertí este código... (estaba todo roto, mandé 
mail a la lista)

Original comment by facundob...@gmail.com on 28 Apr 2012 at 6:16