jorcox / GeoCrawler

Apache License 2.0
3 stars 0 forks source link

Detectar documentos de descripción de servicios de OGC #20

Closed fjlopez closed 7 years ago

fjlopez commented 8 years ago

Cuando se localiza el documento de descripción de servicios de un servicio de OGC hay que marcar en los metadatos del servicio los detalles de dicho sistema. Que información hay que determinar:

La fuente de pruebas para obtenerlo es http://idee.es/web/guest/directorio-de-servicios

jorcox commented 8 years ago

Para esto se puede usar el punto de extensión IndexFilter, que añade la información necesaria al incide y en el caso de que se haya colado documento que no corresponde con un servicio de OGC puede ser descartado.

jorcox commented 8 years ago

También tendré que crear un parser nuevo. Para esto último tengo que mirar en concreto lo que necesito y porqué.

fjlopez commented 8 years ago

Mi consejo para abordar este tema es ir a http://schemas.opengis.net/ y hacerse una compilación de este estilo. Por ejemplo, visitar http://schemas.opengis.net/wms/

servicio version namespace nodo raíz ejemplo
wms 1.0.0 no tiene WMT_MS_Capabilities http://schemas.opengis.net/wms/1.0.0/capabilities_1_0_0.xml
wms 1.1.0 no tiene WMT_MS_Capabilities http://schemas.opengis.net/wms/1.1.0/capabilities_1_1_0.xml
wms 1.1.1 no tiene WMT_MS_Capabilities http://schemas.opengis.net/wms/1.1.1/capabilities_1_1_1.xml
wms 1.3.0 http://www.opengis.net/wms WMS_Capabilities http://schemas.opengis.net/wms/1.3.0/capabilities_1_3_0.xml

De esta vas compilando los ejemplos y al final terminarás con una serie de valores para los nodos raíz que te servirá para identificar los capabilities. También se puede hacer la misma estrategia para identificar las excepciones y otras respuestas basadas en xml.

jorcox commented 8 years ago

Estoy trabajando en este tema. Quiero mirar a fondo el parser de XML que me pasaste ayer. Tiene el problema de que es de 2006 pero espero aprender lo suficiente de el como para que valga la pena.

jorcox commented 8 years ago

Creo que Nutch tiene un selector del Parser a utilizar según el tipo de documento. Tengo que ver como funciona ese selector. A parte el Score habrá que aplicarlo de distintas maneras según el tipo de documento que estemos visitando. Por ejemplo, si es una web HTML habrá que realizar el análisis de términos. Pero en el caso de estar en un capabilitie ya, no debería ser necesario darle score alta a los outlinks ya que habrá muy pocos y la mayoría serán a esquemas y elementos inútiles. ( Ejemplo : http://wms.magrama.es/sig/Agricultura/FactorR/wms.aspx?request=GetCapabilities&service=WMS )

jorcox commented 8 years ago

Porque el score se hace sobre los outlinks de una página que está siendo procesada. Este score tiene que hacerse sin procesar las otras páginas evidentemente. Entonces según el contenido de la página padre se consigue el score de los outlinks.

jorcox commented 8 years ago

Todo esto que estoy diciendo está bien, ¿no?

fjlopez commented 8 years ago

para no perder lo dicho en Slack No lo des por seguro que el score será bajo para los Capabilities. Por ejemplo, puede que al capabilities se haya llegado desde una pagina diferente a la organizacóon que lo publica y en el capabilities esté la landing page de la organización. También hay que pensar que una vez localizado un capabilities hay que generar peticiones para identificar otros servicios situados en el mismo endpoint.

fjlopez commented 8 years ago

Asocia el cierre a un commit.

jorcox commented 8 years ago

0e5f3be5dbb38feaf63ae2e870dd5f2dfb57620d