NaiboWang / EasySpider

A visual no-code/code-free web crawler/spider易采集:一个可视化浏览器自动化测试/数据采集/爬虫软件,可以无代码图形化的设计和执行爬虫任务。别名:ServiceWrapper面向Web应用的智能化服务封装系统。
https://www.easyspider.net
Other
30.37k stars 3.58k forks source link

获取html页面head标签里面的内容 #374

Closed lzlitich closed 2 months ago

lzlitich commented 2 months ago

目前只能获取到html里面中的内容. 但是里面的标签内容获取不到. 使用xpath 在页面内是可以获取到元素内容.点击试运行获取不到.

touero commented 2 months ago

检查是否存在iframe

lzlitich commented 2 months ago
head

不存在iframe,就是直接获取html里面的内容

touero commented 2 months ago

把网站和xpath发出来看一下

lzlitich commented 2 months ago

网址地址:https://www.1905.com/
标题:/html/head/title 关键词://meta[@name='keywords']/@content 链接://meta[@property='og:url']/@content

NaiboWang commented 2 months ago

采集标签属性值时,不能使用@content这种写法来获取,而是要在下面选择采集内容类型为元素的属性值,并指定属性名称:

image

示例任务:

338.json

lzlitich commented 2 months ago

多谢!