【问题标题】:ISO-8859-1 Character truncates text inserting into utf-8 mysql columnISO-8859-1 字符截断插入 utf-8 mysql 列的文本
【发布时间】:2013-08-10 21:05:03
【问题描述】:

所以我有一个奇怪的截断问题!找不到具体的答案。

所以基本上存在明显的 ISO 字符 ½ 的问题,它会在插入指定 UTF-8 的列时截断其余文本。

假设我的字符串是:“您需要添加 ½ 杯水。” MySQL 会将其截断为“您需要添加”

如果我:

print iconv("ISO-8859-1", "UTF-8//IGNORE", $text);

然后输出:

½

O_o

好吧,这不起作用,因为我需要 1/2 本身。如果我去 phpMyAdmin 并复制并粘贴句子并提交它,它就像一个魅力,因为整个字符串在那里,有一半的符号和剩余的文本!出了点问题,我对它是什么感到困惑。我知道这可能会影响其他角色,因此需要解决根本问题。

我使用的语言是 php,文件本身被编码为 UTF-8,我引入的数据的内容类型设置为 ISO-8859-1。该列是utf8_general_ci,所有mysql字符集在php中设置为UTF-8:“SET character_set_result = 'utf8', etc...”

【问题讨论】:

  • 文本可能在接收和发送到数据库之间的某个地方搞砸了,您应该发布更多代码。另外,您是否使用mysql_set_charset 函数或等效函数将连接编码设置为?
  • 好的,我将发布更多代码,但我正在准备的 iconv 测试没有输入到数据库中。我实际上只是打印出来。我将在问题中说明这一点。

标签: php mysql encoding utf-8 iconv


【解决方案1】:

您的代码中的某些内容未将字符串处理为 UTF8。它可能是您的 PHP/HTML,可能是您与 DB 的连接,也可能是 DB 本身 - 必须始终将所有内容设置为 UTF8,如果不是,则字符串将被截断,就像您一样查看何时通过 UTF8/非 UTF8 边界。

我会假设您的数据库是 UTF8 兼容的 - 这是最容易检查的。请注意,排序规则可以设置在服务器级别、数据库级别、表级别和表内的列级别。在列上设置 UTF8 排序规则应该覆盖任何其他用于存储的内容,但如果它们不是 UTF8,则在与数据库通信时其他内容仍会启动。如果不确定,请在打开后将连接显式设置为 UTF8:

$dbh->setAttribute(PDO::MYSQL_ATTR_INIT_COMMAND, "SET NAMES 'utf8'");

现在您的数据库和连接是 UTF8,请确保您的网页也是如此。同样,这可以设置在多个位置(.htaccess、php.ini)。如果您不确定/没有访问权限,只需覆盖任何 PHP 在页面顶部默认拾取的内容:

<?php ini_set('default_charset', 'UTF-8'); ?>

请注意,在从页面输出任何文本之前,您希望在开始时使用上述内容。一旦文本得到输出,尝试指定编码可能为时已晚——您可能已经被锁定在服务器上的默认值中。然后我也在我的标题中重复这个(可能有点矫枉过正):

<head>
<meta charset="UTF-8">
<meta http-equiv="Content-type" content="text/html; charset=UTF-8">
</head>

我也会在我获取数据的表单上覆盖它:

<FORM NAME="utf8-test" METHOD="POST" ACTION="utf8-test.php" enctype="multipart/form-data" accept-charset="UTF-8">"

老实说,如果您将编码设置在顶部,我的理解是不需要其他覆盖 - 但我还是保留它们,因为它也不会破坏任何东西,我宁愿只需明确说明编码,而不是让服务器做出假设。

最后,您提到在 phpMyAdmin 中插入了字符串,它看起来与预期一样 - 您确定 phpMyAdmin 页面是 UTF8 吗?我不认为他们是。当我从我的 PHP 代码中存储 UTF8 数据时,它会在 phpMyAdmin 中查看原始 8 位字符。如果我采用相同的字符串并将其直接存储在 phpMyAdmin 中,它看起来“正确”。所以我猜 phpMyAdmin 使用的是我本地服务器的默认字符集,不一定是 UTF8。

例如,我的网页中存储的以下字符串:

I can¹t wait

在我的 phpMyAdmin 中是这样的:

I can’t wait

所以在测试时要小心,因为你并不真正知道 phpMyAdmin 用于显示或数据库连接的编码。

如果您仍然遇到问题,请尝试以下我的代码。首先,我创建一个表以 UTF8 存储文本:

CREATE TABLE IF NOT EXISTS `utf8_test` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `my_text` varchar(8000) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=MyISAM  DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ;

这里有一些 PHP 来测试它。它基本上将您的输入输入到表单中,将输入的内容回显给您,并从数据库中存储/检索文本。就像我说的,如果你直接在 phpMyAdmin 中查看数据,你可能会发现它看起来不正确,但通过下面的页面,它应该总是按预期显示,因为页面和数据库连接都被锁定为 UTF8。

<?php
  // Override whatever is set in php.ini
  ini_set('default_charset', 'UTF-8');

  // The following should not be required with the above override
  //header('Content-Type:text/html; charset=UTF-8');

  // Open the database
  $dbh = new PDO('mysql:dbname=utf8db;host=127.0.0.1;charset=utf8', 'root', 'password');

  // Set the connection to UTF8
  $dbh->setAttribute(PDO::MYSQL_ATTR_INIT_COMMAND, "SET NAMES 'utf8'");
  // Tell MySql to do the parameter replacement, not PDO
  $dbh->setAttribute(PDO::ATTR_EMULATE_PREPARES, false);
  // Throw exceptions (and break the code) if a query is bad
  $dbh->setAttribute(PDO::ATTR_ERRMODE, PDO::ERRMODE_EXCEPTION);

  $id = 0;
  if (isset($_POST["StoreText"]))
  {
    $stmt = $dbh->prepare('INSERT INTO utf8_test (my_text) VALUES (:my_text)');
    $stmt->execute(array(':my_text' => $_POST['my_text']));
    $id = $dbh->lastInsertId();
  }
?>

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional/EN" "http://www.w3.org/TR/xhtml11/DTD/xhtml11-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta charset="UTF-8">
<meta http-equiv="Content-type" content="text/html; charset=UTF-8">

<title>UTF-8 Test</title>
</head>

<body>

<?php
  // If something was posted, output it
  if (isset($_POST['my_text']))
  {
    echo "POSTED<br>\n";
    echo $_POST['my_text'] . "<br>\n";
  }

  // If something was written to the database, read it back, and output it
  if ($id > 0)
  {
    $stmt = $dbh->prepare('SELECT my_text FROM utf8_test WHERE id = :id');
    $stmt->execute(array(':id' => $id));
    if ($result = $stmt->fetch())
    {
      echo "STORED<br>\n";
      echo $result['my_text'] . "<br>\n";
    }
  }

  // Create a form to take some user input
  echo "<FORM NAME=\"utf8-test\" METHOD=\"POST\" ACTION=\"utf8-test.php\" enctype=\"multipart/form-data\" accept-charset=\"UTF-8\">";

  echo "<br>";

  echo "<textarea name=\"my_text\" rows=\"20\" cols=\"90\">";

  // If something was posted, include it on the form
  if (isset($_POST['my_text']))
  {
    echo $_POST['my_text'];
  }

  echo "</textarea>";

  echo "<br>";
  echo "<INPUT TYPE = \"Submit\" Name = \"StoreText\" VALUE=\"Store It\" />";

  echo "</FORM>";
?>
<br>

</body>

</html>

【讨论】:

  • 我做了一个解决方法,因为大多数时候是因为一些奇怪的有趣字符,比如更长的破折号或不同的刻度,这会导致那些有趣的字符。我将数据库排序规则设置为 utf-8 并将 charset 设置为 utf-8,这就是我挠头的原因。有些事情发生了,但我没有足够的时间来确定细节。我基本上解决这个问题的方法是使用一个非常好的正则表达式模式,同时保留换行符并确保保留一些标点符号:preg_replace("@[[:^print:]]@", '', $output) 工作得很好。
  • 此外,我不是在处理外语,我认为基本上正在发生的事情是人们正在使用 word doc,然后只是用其他类型的字符上传它,所以,真的强制 ascii 表会没关系,但你错过了字符,会有这个奇怪的尾随位......你不知道它有多奇怪。
  • UTF-8 将代表任何东西,而不仅仅是外语。我的文字是英文的,但就像你说的那样,特殊引号等会导致问题。如果您将所有内容锁定为 UTF-8,您将处理任何文本 - 我怀疑您的网页中的某些内容没有强制执行此操作,并且该字符串在某处被作为非 UTF-8 处理。您只需要确保文本所在的任何地方也是 UTF-8 - 我的一些文本发送到电子邮件,您也必须在那里设置编码,等等。如果您不能保证,您可以删除字符或进行转换 - 取决于您希望保留原始文本的准确程度。
【解决方案2】:

您是否在 MySQLi 数据库连接上调用了set_charset()?需要正确使用real_escape_string()

$db = new mysqli(...);
$db->set_charset('utf8');

在连接中设置会话变量是不够的——它们会影响服务器端发生的事情。 set_charset 会影响客户端发生的事情。

您可以查看 PHP 参考资料mysqli::real_escape_string

【讨论】:

    【解决方案3】:

    如果您无法更改数据处理方式,请查看mb_convert_encoding。否则,请帮自己一个忙,并在它失控之前将您的编码放在同一页面上。 UTF-8 使用 ISO-8859-1(拉丁文)编码中无法识别的多字节字符。 wikipediaThis pagethis page 以及 this debug table 都是很好的来源。

    最后,当使用 htmlentities、htmlspecialchars 和 html_entity_decode 的各种组合时,我遇到了这个问题..

    【讨论】:

    • 我已经检查了 mb_convert_encoding。我在上面运行的测试是从 ISO 转换为 UTF8,但它仍然给了我那个有趣的 A。我遗漏了一些东西,可能是一些非常明显的东西,这对我来说往往是这类问题的情况。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2014-08-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-10-08
    • 1970-01-01
    相关资源
    最近更新 更多