hrbesd / labrador

云中盲道快捷版
3 stars 0 forks source link

太原市残联就业中心,采集不到栏目下列表 #376

Closed muwenjie closed 11 years ago

muwenjie commented 11 years ago

网站原网址:http://jyfp.sxtydpf.org.cn/news.asp?newslei=%B9%A4%D7%F7%B6%AF%CC%AC 此页面下列表内容采集不到。

正则表达式,在一些正则表达式测试工具中,可以取到列表标题及url。在系统运行后,dir.xml文件栏目列表没有生成,log文件没有看到有效的错误信息。

基本确认不是正则表达式的问题,验证过,在首页对“基本概况”、“政策法规”、“工作动态”等内容的提取,都是可以生成栏目列表,但用相同规则在“工作动态”栏目页面(即上面网址)中对“基本概况”、“政策法规|”等内容提取,没有生成栏目列表。

muwenjie commented 11 years ago

经验证,在无障碍云系统上是可以采集到列表的,采集工作BUG导致在本地不能验证采集结果。以后项目中遇到此类问题,会先建站验证,以免浪费不必要的时间。(李总提示才想到建站验证) 采集工具BUG,升级版本时处理