jorcox / GeoCrawler

Apache License 2.0
3 stars 0 forks source link

Explicación de la pérdida de documentos por malformación de XML #64

Closed jorcox closed 8 years ago

jorcox commented 8 years ago

Muchos documentos de OGC no se indexan por que están mal formados. Explicar.

fjlopez commented 8 years ago

En muchos casos se debe a que tienen problemas de codificación. El servicio funciona pero la descripción de servicio es incorrecta.

jorcox commented 8 years ago

Estuve mirando y pocos son los que están malformados. La principal causa de que muchos no se indexen es porque ya no existen o las web no funcionan (las fotos que te enseñe ayer). Algunos otros (pocos) son rechazados por el parser porque no es posible parsearlos. Estas son los dos grandes motivos de no indexación de servicios. A parte de lo que has comentado tu.

jorcox commented 8 years ago

Ayer modifiqué uno de mis plugins para que fuera más flexible con la detección de documentos OGC.