获取html页面head标签里面的内容

NaiboWang / EasySpider

A visual no-code/code-free web crawler/spider易采集：一个可视化浏览器自动化测试/数据采集/爬虫软件，可以无代码图形化的设计和执行爬虫任务。别名：ServiceWrapper面向Web应用的智能化服务封装系统。

https://www.easyspider.net

Other

30.37k stars 3.58k forks source link

Closed lzlitich closed 2 months ago

lzlitich commented 2 months ago

目前只能获取到html里面中的内容. 但是里面的标签内容获取不到. 使用xpath 在页面内是可以获取到元素内容.点击试运行获取不到.

touero commented 2 months ago

检查是否存在iframe

lzlitich commented 2 months ago

不存在iframe,就是直接获取html里面的内容

touero commented 2 months ago

把网站和xpath发出来看一下

lzlitich commented 2 months ago

网址地址:https://www.1905.com/
标题:/html/head/title 关键词://meta[@name='keywords']/@content 链接://meta[@property='og:url']/@content

NaiboWang commented 2 months ago

采集标签属性值时，不能使用@content这种写法来获取，而是要在下面选择采集内容类型为元素的属性值，并指定属性名称：

示例任务：

lzlitich commented 2 months ago

多谢!