乱码问题 - Githubissues

xautlx / nutch-htmlunit

基于Apache Nutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件

Apache License 2.0

123 stars 95 forks source link

乱码问题 #3

Open zhaobingkun opened 8 years ago

zhaobingkun commented 8 years ago

您好，我用这个插件后，会有乱码问题，请问有人遇到过吗？

xautlx commented 8 years ago

默认是采用utf8编码处理，如果被采集网站是其他中文编码可能需要特殊转码处理。

zhaobingkun commented 8 years ago

您好：非常感谢答复，问题我解决了。在htmlunit\src\java\org\apache\nutch\protocol\htmlunit\HttpResponse.java.发现有这么一段代码，String charsetName = page.getPageEncoding();，而 page.getPageEncoding();方法是com.gargoylesoftware.htmlunit包里的，查到源码，发现，page.getPageEncoding();有个默认值是iso8859-1，如果没取到页面的编码，则会默认这个值。现在就是没整明白为啥没取到页面的编码。