owner888 / phpspider

《我用爬虫一天时间“偷了”知乎一百万用户,只为证明PHP是世界上最好的语言 》所使用的程序
3.49k stars 1.17k forks source link

爬取不同域名content_url_regexes怎么填写呢 #141

Open ShareDo9 opened 5 years ago

ShareDo9 commented 5 years ago

爬取不同域名这样写一直不走on_scan_page 和 on_list_page这两个方法,只走on_content_page

'domains' => array(
    'zhongshang114',
    'detail.zhongshang114.com'
),
'scan_urls' => array(
    'http://detail.zhongshang114.com/list.php?catid=91400'            
),
'list_url_regexes' => array(
    "http://detail.zhongshang114.com/list.php\?catid=91400\&page=\d+"         // 公司列表页
),
'content_url_regexes' => array(

// "http://detail.zhongshang114.com/list.php\?catid=91400\&page=\d+", "http://.*?.zhongshang114.com/" ),

这个content_url_regexes该怎么写呢