jorcox / GeoCrawler

Apache License 2.0
3 stars 0 forks source link

Analizar que algoritmo de recuperación del término más representativo se adapta mejor a nuestras necesidades. #15

Closed jorcox closed 8 years ago

jorcox commented 8 years ago

Analizar que algoritmo de recuperación, de los incluidos en JATE, del término más representativo se adapta mejor a nuestras necesidades.

Los algoritmos disponibles son:

jorcox commented 8 years ago

Voy a hacer aquí un reporte de los resultados devueltos por cada algoritmo para el documento celestina.html.

A la izquierda estás los términos y sus variaciones. El número de la derecha es el score.

Como se puede ver también recogen los elementos del HTML. Esto no se si es bueno o malo porque podría ayudar o no. ¿Cual es tu opinión?

TFIDFAlgorithm: celestina |Celestina 0.1844425974022172 class |class 0.1844425974022172 div |div 0.1829551571005864 melibea |Melibea 0.1472565898614476 calisto |Calisto s |Calisto 0.12791986594024743 obra |obra 0.11750778382883194 personaje |personaje |personajes 0.10412082111415488 style |style 0.08478409719295468 amor |amor 0.08180921658969312 script |script 0.07734689568480077

GlossExAlgorithm: calisto |Calisto s |Calisto 14.576109077940265 comedia |Comedia |comedia 12.866005308609548 muerte |muertes |muerte 12.545762611428472 roja |Rojas 12.45991678688418 principio |principio 12.34016622450603 tema |tema |temas 12.261103796558542 dinero |dinero 12.184791840963362 ambiente |ambiente 12.180145952370289 alisa |Alisa 12.172479348829501 vida |vidas |vida 12.125622109222698

WeirdnessAlgorithm: calisto |Calisto s |Calisto 15.980174614087113 comedia |Comedia |comedia 14.164884647448865 muerte |muertes |muerte 13.769571910804718 roja |Rojas 13.685311567186979 principio |principio 13.605268859513442 tema |tema |temas 13.518257482523811 ambiente |ambiente 13.47173746688892 toda |Todas 13.442749930015667 dinero |dinero 13.422947302719487 alisa |Alisa 13.397629494735197

CValueAlgorithm: p style text-align |p style text-align 76.71660612847711 li li class |li li class 45.70351003398636 p rmeno |P rmeno 37.46362647619893 i b p |i b p 35.909900740989286 div class |div class 30.68449406622008 div id |div id 29.970901180959146 calisto y melibea |Calisto y Melibea 27.74855966349172 are sa |Are sa 24.26215809887169 i class |i class 23.548565213610757 div div |div div 22.47817588571936

TermExAlgorithm: class |class 2.0004733914844413 div |div 1.9979492421767142 melibea |Melibea 1.924240445217412 celestina |Celestina 1.9129805669411104 calisto |Calisto s |Calisto 1.8764498356807453 obra |obra 1.7424647239877589 style |style 1.7366113625477368 are sa |Are sa 1.725200957518633 script |script 1.7057342617259277 center |center 1.6714871882418851

RIDFAlgorithm: obra |obra 1.0 melibea |Melibea 1.0 calisto |Calisto s |Calisto 1.0 celestina |Celestina 1.0 class |class 1.0 div |div 1.0 personaje |personaje |personajes 0.999999999999999 style |style 0.999999999999395 amor |amor 0.9999999999983553 script |script 0.9999999999926291

AverageCorpusTFAlgorithm: celestina |Celestina 124.0 class |class 124.0 div |div 123.0 melibea |Melibea 99.0 calisto |Calisto s |Calisto 86.0 obra |obra 79.0 personaje |personaje |personajes 70.0 style |style 57.0 amor |amor 55.0 script |script 52.0

FrequencyAlgorithm: celestina |Celestina 124.0 class |class 124.0 div |div 123.0 melibea |Melibea 99.0 calisto |Calisto s |Calisto 86.0 obra |obra 79.0 personaje |personaje |personajes 70.0 style |style 57.0 amor |amor 55.0 script |script 52.0

fjlopez commented 8 years ago

Aplícalo sobre un texto sin tags de HTML. Hay plugins de nutch que pueden extraer el texto del HTML (parser-html, parser-tika).

fjlopez commented 8 years ago

Añade el enlace al celestina.html

jorcox commented 8 years ago

TFIDF