jorcox / GeoCrawler

Apache License 2.0
3 stars 0 forks source link

Crear una primera versión de un clasificador de relevancia de documentos basado en ontologías #27

Closed fjlopez closed 8 years ago

fjlopez commented 8 years ago

Utilizar SKOS como base https://www.w3.org/2001/sw/wiki/SKOS/Datasets y técnicas de IR para dar un valor de relevancia a documentos. Notar que esto no está pensado a priori para servicios OGC o ficheros de datos.

jorcox commented 8 years ago

Mira, he llegado a esto. ¿Es lo que queremos hacer nosotros, no?

fjlopez commented 8 years ago

Mas o menos, pero lo que hagamos nosotros será pequeño y práctico.

jorcox commented 8 years ago

Bien. ¿Voy a tener que usar Jena?

fjlopez commented 8 years ago

Es lo más simple si tienes que consumir RDF en Java

jorcox commented 8 years ago

Bien, lo que se me ha ocurrido para empezar sería realizar una consulta SPARQL al tesauro para buscar si existe la palabra en el y ademas ese concepto tiene como tema la geografía. Esto me da un resultado de Si o No. Para convertirlo en un valor entre 0 y 1 se me ha ocurrido ponderar el elemento por el peso que tiene en el documento.

jorcox commented 8 years ago

Esto sirve para cuando hay que ponderar el peso del documento entero.

La otra variante es cuando hay que ponderar la calidad de un anchor y de su contexto, en este caso es algo distinto porque los elementos son más cortos.

fjlopez commented 8 years ago

Este tópico puede ser interesante para determinar el peso de un término en un documento https://en.wikipedia.org/wiki/Tf%E2%80%93idf

jorcox commented 8 years ago

Si, de hecho esto ya lo seleccioné. De la librería del JATE. Este algoritmo nos devolverá los términos relevantes del documento. Esta implementado ya en la librería que te menciono.

jorcox commented 8 years ago

100b89f47f4861ab8d41c0a51f4de3476d4bd0e5 y 8d4818955f4dfd6582c754589a1f1992d4ae7de3