【问题标题】:Converting "unknown-8bit" charset to UTF-8将“unknown-8bit”字符集转换为 UTF-8
【发布时间】:2014-11-03 17:44:52
【问题描述】:

我正在帮助一位朋友将内容添加到一个用 FrontPage 之类的东西编写的旧网站。但是,我有一个用“unknown-8bit”字符集编码的 html 文档。我正在使用的 Brackets.io 仅支持 UTF-8,因此我无法打开并将文档重新保存为正确的编码。

我将如何将此文件转换为 UTF-8 以便我可以在括号.io 中使用它?

我使用的是 OS X 10.10 Yosemite,所以我比坐在 Windows 上更受限制(想到记事本++)。

在谷歌搜索后,我在终端中尝试了以下操作,但不支持“unknown-8bit”。

iconv -f unknown-8bit -t utf-8 filename.html > newfilename.html

【问题讨论】:

  • unknown-8it 与其说是一种编码,不如说是编码检测器放弃了:它相对确定它是一个 8 位编码(几乎所有都是),但缺乏确定哪个编码的指标.尝试另一个检测器。您甚至可以使用浏览器更改编码,直到看起来正确为止。

标签: html encoding utf-8 character-encoding


【解决方案1】:

你可以使用encachardetenca可能会更成功。

如果您知道文档的编写语言,则可以猜测编码并尝试转换,直到得到正确的结果:

  • 英语、法语、德语、西班牙语... - 通常是 Windows-1252

  • 俄语、乌克兰语... – 通常是 Windows-1251

  • 波兰语、捷克语、匈牙利语... - 通常是 Windows-1250 或 ISO-8859-2

  • 日语 - 通常是 Shift-JIS

等等。

【讨论】:

  • 谢谢,这对我帮助很大!该文件的语言是瑞典语,所以我尝试使用“ISO-8859-1”。它确实成功地将文档转换为 UTF-8,但是它错误地转换了瑞典语字符。我手动编辑它会更快,然后尝试找到正确的原始编码。
【解决方案2】:

还有一个Brackets extension to convert files to UTF-8 encoding,因此您不必离开您的编辑器。但如果其他工具无法识别/转换原始文件的编码,我猜这个扩展也会有同样的问题。

【讨论】:

    猜你喜欢
    • 2011-06-19
    • 1970-01-01
    • 2016-04-03
    • 2011-06-25
    • 1970-01-01
    • 2013-04-19
    • 2010-11-12
    • 2021-05-29
    • 1970-01-01
    相关资源
    最近更新 更多