Open zhaobingkun opened 8 years ago
默认是采用utf8编码处理,如果被采集网站是其他中文编码可能需要特殊转码处理。
您好: 非常感谢答复,问题我解决了。在htmlunit\src\java\org\apache\nutch\protocol\htmlunit\HttpResponse.java.发现有这么一段代码,String charsetName = page.getPageEncoding();,而 page.getPageEncoding();方法是com.gargoylesoftware.htmlunit包里的,查到源码,发现,page.getPageEncoding();有个默认值是iso8859-1,如果没取到页面的编码,则会默认这个值。现在就是没整明白为啥没取到页面的编码。
您好,我用这个插件后,会有乱码问题,请问有人遇到过吗?