【发布时间】:2011-04-06 20:17:43
【问题描述】:
我目前正在开发一个应用程序来验证和解析 CSV 文件。 CSV 文件必须以 UTF-8 编码,尽管有时我们会得到错误编码的文件。 CSV 文件很可能包含德语字母表的特殊字符(Ä、Ö、Ü、ß),因为 CSV 文件中的大多数文本都是德语。
对于验证器部分,我需要确保文件是 UTF-8 编码的。只要不存在特殊字符,解析就很可能没有问题。
到目前为止,我尝试将文件读取为字节并使用一些库来检测(或猜测)编码。我尝试了这篇博文的大部分可能性:http://fredeaker.blogspot.com/2007/01/character-encoding-detection.html
但是我尝试的所有库都没有返回正确的编码,因此我无法解析特殊字符。
现在我的问题: 有没有办法确定给定的字符编码(如 UTF-8)来检测未正确编码的字符?所以基本上(Eclipse)控制台中显示的字符作为问号。
或者有没有其他方法可以正确确定字符编码? 我只需要知道它是否是UTF-8。
提前感谢大家的帮助! :)
最好的问候, 罗伯特
【问题讨论】:
标签: java csv utf-8 character-encoding validation