code4craft / webmagic

A scalable web crawler framework for Java.
http://webmagic.io/
Apache License 2.0
11.43k stars 4.18k forks source link

Question:怎么抓取Css属性的内容 #72

Closed friddle closed 10 years ago

friddle commented 10 years ago

大神。继续来问问题的了。

再页目内只有 @ExtractBy(value = "div.BlogContent",type = ExtractBy.Type.Css)示范 但是。这好像不是抓取Css内容。

比如 我要抓

中的img1的background-img属性 css: .img1 { background-image:url(http://i04.c.aliimg.com/img/ibank/2013/046/670/966076640.jpg); }

是不是暂不支持?

Thanks!

code4craft commented 10 years ago

这是要分析CSS文件吗?暂时还没有这个解析,估计还是要用正则了!

friddle commented 10 years ago

我查了一下。暂时没有做到的。 我读过Xsoup的部分源代码。(很遗憾只看的懂部分)。开始以为Jsoup有解析Css功能。所以以为你的也有。外加( ExtractBy.Type.Css)这个注解让我误解其意思了。 但是刚刚查了一下。Xsoup也没有。。 所以又麻烦大神了。

不过这确实也是一个需求。不过是比较小的一个需求。

code4craft commented 10 years ago

Jsoup有CSS解析功能吗?我倒是没有注意,感觉是没有的。 Css是css selector的缩写,哈…

friddle commented 10 years ago

Jsoup 没有这个功能。