Closed Google1234 closed 8 years ago
采用规则:item['content']=response.xpath('//div[@class="post_text"]/p').extract()提取新闻的文本内容 如在采集http://news.163.com/16/0424/01/BLCOK6H400014AED.html时,只能提取到 "<p class=\"otitle\">\n (原标题:嫦娥三号拍出迄今最清晰月面照片(图))\n <\/p>", "
<\/p>" 丢失:新华社电 自2013年12月14日月面软着陆以来,我国嫦娥三号月球探测器创造了全世界在.....
放松 提取规则
采用规则:item['content']=response.xpath('//div[@class="post_text"]/p').extract()提取新闻的文本内容 如在采集http://news.163.com/16/0424/01/BLCOK6H400014AED.html时,只能提取到 "<p class=\"otitle\">\n (原标题:嫦娥三号拍出迄今最清晰月面照片(图))\n <\/p>", "
<\/p>" 丢失:新华社电 自2013年12月14日月面软着陆以来,我国嫦娥三号月球探测器创造了全世界在.....