Closed fjlopez closed 7 years ago
Para esto se puede usar el punto de extensión IndexFilter, que añade la información necesaria al incide y en el caso de que se haya colado documento que no corresponde con un servicio de OGC puede ser descartado.
También tendré que crear un parser nuevo. Para esto último tengo que mirar en concreto lo que necesito y porqué.
Mi consejo para abordar este tema es ir a http://schemas.opengis.net/ y hacerse una compilación de este estilo. Por ejemplo, visitar http://schemas.opengis.net/wms/
servicio | version | namespace | nodo raíz | ejemplo |
---|---|---|---|---|
wms | 1.0.0 | no tiene | WMT_MS_Capabilities | http://schemas.opengis.net/wms/1.0.0/capabilities_1_0_0.xml |
wms | 1.1.0 | no tiene | WMT_MS_Capabilities | http://schemas.opengis.net/wms/1.1.0/capabilities_1_1_0.xml |
wms | 1.1.1 | no tiene | WMT_MS_Capabilities | http://schemas.opengis.net/wms/1.1.1/capabilities_1_1_1.xml |
wms | 1.3.0 | http://www.opengis.net/wms | WMS_Capabilities | http://schemas.opengis.net/wms/1.3.0/capabilities_1_3_0.xml |
De esta vas compilando los ejemplos y al final terminarás con una serie de valores para los nodos raíz que te servirá para identificar los capabilities. También se puede hacer la misma estrategia para identificar las excepciones y otras respuestas basadas en xml.
Estoy trabajando en este tema. Quiero mirar a fondo el parser de XML que me pasaste ayer. Tiene el problema de que es de 2006 pero espero aprender lo suficiente de el como para que valga la pena.
Creo que Nutch tiene un selector del Parser a utilizar según el tipo de documento. Tengo que ver como funciona ese selector. A parte el Score habrá que aplicarlo de distintas maneras según el tipo de documento que estemos visitando. Por ejemplo, si es una web HTML habrá que realizar el análisis de términos. Pero en el caso de estar en un capabilitie ya, no debería ser necesario darle score alta a los outlinks ya que habrá muy pocos y la mayoría serán a esquemas y elementos inútiles. ( Ejemplo : http://wms.magrama.es/sig/Agricultura/FactorR/wms.aspx?request=GetCapabilities&service=WMS )
Porque el score se hace sobre los outlinks de una página que está siendo procesada. Este score tiene que hacerse sin procesar las otras páginas evidentemente. Entonces según el contenido de la página padre se consigue el score de los outlinks.
Todo esto que estoy diciendo está bien, ¿no?
para no perder lo dicho en Slack No lo des por seguro que el score será bajo para los Capabilities. Por ejemplo, puede que al capabilities se haya llegado desde una pagina diferente a la organizacóon que lo publica y en el capabilities esté la landing page de la organización. También hay que pensar que una vez localizado un capabilities hay que generar peticiones para identificar otros servicios situados en el mismo endpoint.
Asocia el cierre a un commit.
0e5f3be5dbb38feaf63ae2e870dd5f2dfb57620d
Cuando se localiza el documento de descripción de servicios de un servicio de OGC hay que marcar en los metadatos del servicio los detalles de dicho sistema. Que información hay que determinar:
La fuente de pruebas para obtenerlo es http://idee.es/web/guest/directorio-de-servicios