【发布时间】:2010-12-30 02:32:23
【问题描述】:
我阅读了Joel's article about character sets,因此我采纳了他的建议,在我的网页和数据库中使用 UTF-8。我无法理解的是如何处理用户输入。正如 Joel 所说,“在不知道它使用什么编码的情况下拥有一个字符串是没有意义的。”但是我怎么知道用户输入字符串使用什么编码呢?如果我有
<input type="text" name="atextfield" >
在我的页面上,我如何知道我从用户那里获得了什么编码?如果用户输入一些特殊的 ASCII 符号,比如 ♣ 或 ™ 之类的会怎样?有什么方法可以检测到用户输入给了我一些 UTF-8 无法识别的东西?处理这类事情有什么标准吗?
【问题讨论】:
-
ASCII 没有像 ♣ 或 ™ 这样的特殊符号。它只有 128 个字符,其中一些是控制字符。具有这些符号的是 UTF-8。