【发布时间】:2015-12-10 00:51:36
【问题描述】:
我有一个提供给我的文本文件,但没有人知道它的编码。在文本编辑器中查看它,一切看起来都很好,正确地排列成整齐的列。
但是,当我读取数据时,我发现了一些异常情况。即使从视觉上看,“Foo”字段出现在文本文件的相同列中(例如,在第 15-20 列中),当我尝试使用 substring(15,20) 将其拉出时,我的数据变化很大。有时我会提取字节 11-16,有时是 18-23,有时是 15-20……记录之间没有一致性。
我怀疑有一些特殊的字符,在我的文本编辑器中是不可见的,但可以被String 方法读取(并计入索引)。 Java中有什么方法可以用任何可见的特殊字符转储文件的内容,这样我就可以看到我需要用正则表达式替换的字符串?
如果不是在 Java 中,任何人都可以推荐一个可以帮助我的工具吗?
【问题讨论】: