hrbesd / labrador

云中盲道快捷版
3 stars 0 forks source link

太原残联就业中心,正文spider模块,下载网页出错 #383

Closed muwenjie closed 11 years ago

muwenjie commented 11 years ago

原网址地址:http://jyfp.sxtydpf.org.cn/index1.asp 无障碍云服务地址:taiyuan.mangren.com

出错面页例子:http://taiyuan.mangren.com/a/39/39894aceb80e375b1b16f0fb0bd4d339.xml 查看 workers/spider/目录下此文件,发现原网页内容只下载了一部分,后面出错。没有查出原因。

zyb19830307 commented 11 years ago

错误原因是由于获取链接的正则不正确,造成采集了不存在的网页。已修改

muwenjie commented 11 years ago

太原网站,还是存在spider模块网页download出错的现像。 出错页面原网址:http://jyfp.sxtydpf.org.cn/productshow.asp?id=371&CLASSNAME=%B9%A4%D7%F7%CD%BC%C6%AC&xiang=true 出错页面无障碍云网址:http://taiyuan.mangren.com/a/66/66dcf4d290827cfb48dc5a82ef27fc6b.xml

查看workers/spider/66/66dcf4d290827cfb48dc5a82ef27fc6b文件,出现以下错误:

Microsoft OLE DB Provider for ODBC Drivers 错误 '80040e14'

[Microsoft][ODBC Microsoft Access Driver] 语法错误 (操作符丢失) 在查询表达式 'id=371 and newslei='' and Audit=' 中。

/productshow.asp,行 41 查看了与出错网页类似的网页源代码,其它的网页可以正常被download,例子如下: 页面原网址:http://jyfp.sxtydpf.org.cn/shownew.asp?id=279&CLASSNAME=%D0%C2%CE%C5%BE%DB%BD%B9&xiang=true 无障碍云网址:http://taiyuan.mangren.com/a/32/3251e12ad3145b4fecb8d6c0aa0d97c9.xml 没有分析出原因!

muwenjie commented 11 years ago

经分析,下载网页出错,是由于下载的网页地址解析出了问题,“工作图片”网址在forerunner运行后,多了一个“amp;”。 解决方法:在撰写url采集规则时,利用js,将源代码中的“&”替换为“&”,从而解决问题。