【发布时间】:2012-01-28 00:05:04
【问题描述】:
我只想获取 Java 语言的网页源代码,并且只想获取具有正确编码类型的内容。到目前为止,我能够获取网页的内容。但是对于某些网页,内容带有荒谬的字符。所以我需要检测该网页的字符集。
根据我的小研究,我发现有一个 jChardet 库可以做到这一点。但我无法将它导入我的项目。有人可以帮帮我吗?
顺便说一下下面的代码是读取网页内容的代码
StringBuilder builder = new StringBuilder();
InputStream is = fURL.openStream();
BufferedReader buffer = null;
buffer = new BufferedReader(new InputStreamReader(is, encodingType));
int byteRead;
while ((byteRead = buffer.read()) != -1) {
builder.append((char) byteRead);
}
buffer.close();
return builder;
【问题讨论】:
标签: java encoding character-encoding webpage