Detectar documentos de descripción de servicios de OGC - Githubissues

jorcox / GeoCrawler

Apache License 2.0

3 stars 0 forks source link

Detectar documentos de descripción de servicios de OGC #20

Closed fjlopez closed 7 years ago

fjlopez commented 8 years ago

Cuando se localiza el documento de descripción de servicios de un servicio de OGC hay que marcar en los metadatos del servicio los detalles de dicho sistema. Que información hay que determinar:

Tipo de servicio (OGC WMS, OGC WMTS, [OSGEO WMS-C],(https://wiki.osgeo.org/wiki/WMS_Tile_Caching), OGC CSW, OGC WFS, ATOM INSPIRE, OGC WPS, OGC WCTS, OGC WCS.
Versión de servicio

La fuente de pruebas para obtenerlo es http://idee.es/web/guest/directorio-de-servicios

jorcox commented 8 years ago

Para esto se puede usar el punto de extensión IndexFilter, que añade la información necesaria al incide y en el caso de que se haya colado documento que no corresponde con un servicio de OGC puede ser descartado.

jorcox commented 8 years ago

También tendré que crear un parser nuevo. Para esto último tengo que mirar en concreto lo que necesito y porqué.

fjlopez commented 8 years ago

Mi consejo para abordar este tema es ir a http://schemas.opengis.net/ y hacerse una compilación de este estilo. Por ejemplo, visitar http://schemas.opengis.net/wms/

servicio	version	namespace	nodo raíz	ejemplo
wms	1.0.0	no tiene	WMT_MS_Capabilities	http://schemas.opengis.net/wms/1.0.0/capabilities_1_0_0.xml
wms	1.1.0	no tiene	WMT_MS_Capabilities	http://schemas.opengis.net/wms/1.1.0/capabilities_1_1_0.xml
wms	1.1.1	no tiene	WMT_MS_Capabilities	http://schemas.opengis.net/wms/1.1.1/capabilities_1_1_1.xml
wms	1.3.0	http://www.opengis.net/wms	WMS_Capabilities	http://schemas.opengis.net/wms/1.3.0/capabilities_1_3_0.xml

De esta vas compilando los ejemplos y al final terminarás con una serie de valores para los nodos raíz que te servirá para identificar los capabilities. También se puede hacer la misma estrategia para identificar las excepciones y otras respuestas basadas en xml.

jorcox commented 8 years ago

Estoy trabajando en este tema. Quiero mirar a fondo el parser de XML que me pasaste ayer. Tiene el problema de que es de 2006 pero espero aprender lo suficiente de el como para que valga la pena.

jorcox commented 8 years ago

Creo que Nutch tiene un selector del Parser a utilizar según el tipo de documento. Tengo que ver como funciona ese selector. A parte el Score habrá que aplicarlo de distintas maneras según el tipo de documento que estemos visitando. Por ejemplo, si es una web HTML habrá que realizar el análisis de términos. Pero en el caso de estar en un capabilitie ya, no debería ser necesario darle score alta a los outlinks ya que habrá muy pocos y la mayoría serán a esquemas y elementos inútiles. ( Ejemplo : http://wms.magrama.es/sig/Agricultura/FactorR/wms.aspx?request=GetCapabilities&service=WMS )

jorcox commented 8 years ago

Porque el score se hace sobre los outlinks de una página que está siendo procesada. Este score tiene que hacerse sin procesar las otras páginas evidentemente. Entonces según el contenido de la página padre se consigue el score de los outlinks.

jorcox commented 8 years ago

Todo esto que estoy diciendo está bien, ¿no?

fjlopez commented 8 years ago

para no perder lo dicho en Slack No lo des por seguro que el score será bajo para los Capabilities. Por ejemplo, puede que al capabilities se haya llegado desde una pagina diferente a la organizacóon que lo publica y en el capabilities esté la landing page de la organización. También hay que pensar que una vez localizado un capabilities hay que generar peticiones para identificar otros servicios situados en el mismo endpoint.

fjlopez commented 8 years ago

Asocia el cierre a un commit.

jorcox commented 8 years ago

0e5f3be5dbb38feaf63ae2e870dd5f2dfb57620d