【发布时间】:2011-10-27 01:00:37
【问题描述】:
我正在对一些正在导入 mysql 的杂乱数据进行数据清理。
数据包含“伪”unicode 字符,这些字符实际上以“u00e9”等形式嵌入到字符串中。
所以一个字段可能是.. 'Jalostotitlu00e1n' 我需要撕掉那个笨拙的'u00e1n'并用相应的utf字符替换它
我可以在任一 mysql 中执行此操作,可能使用子字符串和 CHR,但我通过 PHP 预处理数据,所以我也可以在那里执行。
我已经知道如何配置 mysql 和 php 来处理 utf 数据。问题实际上只是在我正在导入的源数据中。
谢谢
【问题讨论】:
-
没有“UTF-8 字符”这样的东西。也许您的意思是“具有该代码点的 Unicode 字符的 UTF-8 编码”。
-
@Ignacio 确实,但我会将“UTF-8 字符”定义为“编码 Unicode 字符的一、二、三或四个字节的序列”。这会是一个有效的定义吗?
-
@deceze:技术上称为“UTF-8 序列”。
标签: php mysql unicode character-encoding utf