jorcox / GeoCrawler

Apache License 2.0
3 stars 0 forks source link

Determinar características de la frontera #24

Closed fjlopez closed 8 years ago

fjlopez commented 8 years ago

¿Puede seleccionase por scoring? ¿Puede limitarse el tamaño de la frontera? ¿Puede modificarse el scoring de los recursos que están en la frontera?

jorcox commented 8 years ago

¿Puede seleccionase por scoring?

Si, se pueden seleccionar para la fase de fetch los n enlaces con más score.

¿Puede limitarse el tamaño de la frontera?

Limitar la frontera supondría desestimar de origen algunos links pero no se le puede poner limite como tal a la frontera, creo que en este punto no nos entendemos bien.

Edición 06/04/2016 19:09. Se pueden eliminar de la frontera URLs con bajo score.

¿Puede modificarse el scoring de los recursos que están en la frontera?

No estoy seguro. Se puede generar el Webgraph y a partir de el calcular cambios de score. No existe un punto de extensión para esto. Actualmente en Nutch está fijado que se pueden actualizar scores generando el Webgraph y ejecutando la clase LinkRank.  Posteriormente se ejecutaría la clase ScoreUpdater que toma el Webgraph y actualiza la CrawlDb con el.

He extraído esto de la escasa documentación de Nutch:

LinkRank is a PageRank-like link analysis program that converges to stable global scores for each url. Similar to PageRank, the LinkRank program starts with a common score for all urls. It then creates a global score for each url based on the number of incoming links and the scores for those links and the number of outgoing links from the page. The process is iterative and scores tend to converge after a given number of iterations. ... ... The web graph and the link scores are recreated at each processing run and so we don't have the problems of ever increasing scores. LinkRank requires the WebGraph program to have completed successfully and it stores its output scores for each url in the node database of the webgraph.

Como no existe un punto de extensión propio, supongo que para realizar el boost de hermanos y antecesores habría que modificar el propio Nutch. No he encontrado otra manera de actualizar las URLs que ya esta en la frontera.