【问题标题】:HtmlUnit: Encoding for Chinese WebsiteHtmlUnit:中文网站的编码
【发布时间】:2017-05-14 06:32:09
【问题描述】:

我希望这是非常基本的:

从中文网站下载页面时,所有中文字符都显示为“?”在保存的文件(viw java NIO Files.write)中。

我知道中文网页被检索为 UTF-8(page.getPageEncoding() 返回“UTF-8”),但我保存网页时出现问题。

我的代码如下:

    final WebClient webClient = new WebClient(BrowserVersion.FIREFOX_45);
    webClient.getOptions().setThrowExceptionOnScriptError(false);
    webClient.getOptions().setTimeout(15000);
    final HtmlPage page = webClient.getPage(urlNow);





    pageAsXml = page.asXml();

    NioLog.getLogger().debug(page.getPageEncoding());





    Files.write(Paths.get(outputPath + File.separator + fileNameTruncated + TXT), pageAsXml.getBytes());

【问题讨论】:

    标签: utf-8 htmlunit chinese-locale


    【解决方案1】:

    答案如下:

                barrayXml = page.asXml().getBytes(Charset.forName("UTF-8"));
    
    
    
                Files.write(Paths.get(outputPath + File.separator + fileNameTruncated + TXT), barrayXml );
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-06-23
      • 1970-01-01
      • 2023-03-30
      • 1970-01-01
      • 1970-01-01
      • 2015-10-08
      相关资源
      最近更新 更多