【发布时间】:2010-09-13 00:53:50
【问题描述】:
我有一个 ANSI 编码的文本文件,它不应该被编码为 ANSI,因为有重音符号 ANSI 不支持的字符。我宁愿使用 UTF-8。
数据能正确解码还是在转码中丢失?
我可以使用哪些工具?
这是我所拥有的示例:
ç é
我可以从上下文中看出(café 应该是 cafe)这应该是这两个字符:
ç é
【问题讨论】:
-
你知道文件的原始编码吗(假设它在某个时候从一个字符集转换为另一个字符集)?如果是这样,您应该能够使用this one 之类的表将结果字符映射回原始字符。如果您不知道原始编码,您可能会根据您正在使用的语言中不同单词的频率使用概率方法来计算它。但您可能不愿意投入所需的工作。
-
很遗憾,我不知道原始编码。当客户向您发送在各种系统上制作的文件时,这是一个常见问题。他们可能不知道字符编码是什么。请注意,默认情况下使用 UTF-8 的 Linux 桌面越来越多地采用可以透明地减少此问题。
-
我完全同意。 UTF-8 绝对是在大多数情况下使用的最合理的编码,但不幸的是,您很难期望客户能够理解或采取行动。
标签: encoding utf-8 character-encoding text-files codepages