xautlx / nutch-htmlunit

基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件
Apache License 2.0
123 stars 95 forks source link

乱码问题 #3

Open zhaobingkun opened 8 years ago

zhaobingkun commented 8 years ago

您好,我用这个插件后,会有乱码问题,请问有人遇到过吗?

xautlx commented 8 years ago

默认是采用utf8编码处理,如果被采集网站是其他中文编码可能需要特殊转码处理。

zhaobingkun commented 8 years ago

您好: 非常感谢答复,问题我解决了。在htmlunit\src\java\org\apache\nutch\protocol\htmlunit\HttpResponse.java.发现有这么一段代码,String charsetName = page.getPageEncoding();,而 page.getPageEncoding();方法是com.gargoylesoftware.htmlunit包里的,查到源码,发现,page.getPageEncoding();有个默认值是iso8859-1,如果没取到页面的编码,则会默认这个值。现在就是没整明白为啥没取到页面的编码。