【问题标题】:UTF-8 problems while reading CSV file with fgetcsv使用 fgetcsv 读取 CSV 文件时出现 UTF-8 问题
【发布时间】:2012-02-11 12:24:27
【问题描述】:

我尝试读取 CSV 并回显内容。但内容显示字符错误。

Mäx Müstermänn -> Mäx Müstermänn

CSV 文件的编码是没有 BOM 的 UTF-8(使用 Notepad++ 检查)。

这是 CSV 文件的内容:

"Mäx";"Müstermänn"

我的 PHP 脚本

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
</head>
<body>
<?php
$handle = fopen ("specialchars.csv","r");
echo '<table border="1"><tr><td>First name</td><td>Last name</td></tr><tr>';
while ($data = fgetcsv ($handle, 1000, ";")) {
        $num = count ($data);
        for ($c=0; $c < $num; $c++) {
            // output data
            echo "<td>$data[$c]</td>";
        }
        echo "</tr><tr>";
}
?>
</body>
</html>

我尝试按照here 的建议使用setlocale(LC_ALL, 'de_DE.utf8');,但没有成功。内容仍然显示错误。

我错过了什么?

编辑:

echo mb_detect_encoding($data[$c],'UTF-8'); 给了我 UTF-8 UTF-8。

echo file_get_contents("specialchars.csv"); 给我"Mäx";"Müstermänn"

print_r(str_getcsv(reset(explode("\n", file_get_contents("specialchars.csv"))), ';'))

给我

Array ( [0] =&gt; Mäx [1] =&gt; Müstermänn )

什么意思?

【问题讨论】:

  • 当您执行 echo file_get_contents("specialchars.csv") 时会发生什么?当您执行 print_r(str_getcsv(reset(explode("\n", file_get_contents("specialchars.csv"))), ';')) 时会发生什么?

标签: php csv utf-8 fgetcsv


【解决方案1】:

在我的例子中,源文件具有 windows-1250 编码,并且 iconv 会打印大量关于输入字符串中非法字符的通知...

所以这个解决方案对我帮助很大:

/**
 * getting CSV array with UTF-8 encoding
 *
 * @param   resource    &$handle
 * @param   integer     $length
 * @param   string      $separator
 *
 * @return  array|false
 */
private function fgetcsvUTF8(&$handle, $length, $separator = ';')
{
    if (($buffer = fgets($handle, $length)) !== false)
    {
        $buffer = $this->autoUTF($buffer);
        return str_getcsv($buffer, $separator);
    }
    return false;
}

/**
 * automatic convertion windows-1250 and iso-8859-2 info utf-8 string
 *
 * @param   string  $s
 *
 * @return  string
 */
private function autoUTF($s)
{
    // detect UTF-8
    if (preg_match('#[\x80-\x{1FF}\x{2000}-\x{3FFF}]#u', $s))
        return $s;

    // detect WINDOWS-1250
    if (preg_match('#[\x7F-\x9F\xBC]#', $s))
        return iconv('WINDOWS-1250', 'UTF-8', $s);

    // assume ISO-8859-2
    return iconv('ISO-8859-2', 'UTF-8', $s);
}

回复@manvel 的回答 - 使用 str_getcsv 而不是 explode - 因为这样的情况:

some;nice;value;"and;here;comes;combinated;value";and;some;others

explode 会将字符串分解成多个部分:

some
nice
value
"and
here
comes
combinated
value"
and
some
others

但是 str_getcsv 会将字符串分解成多个部分:

some
nice
value
and;here;comes;combinated;value
and
some
others

【讨论】:

  • 很好的答案!这是使用 PHP 处理 CSV 数据时唯一实际处理错误字符编码问题的方法。要么在操作数据之前正确编码数据,要么在阅读时即时进行。在我的情况下,fgetcsv 正在返回一个损坏的输出(没有任何 PHP 通知,甚至没有返回 NULL 或 FALSE!),因为编码错误。你只是用fgetcsvUTF8 为我节省了宝贵的时间,因为我没有办法重新编码原始数据,我讨厌编码问题。谢谢分享!
【解决方案2】:

试试这个:

<?php
$handle = fopen ("specialchars.csv","r");
echo '<table border="1"><tr><td>First name</td><td>Last name</td></tr><tr>';
while ($data = fgetcsv ($handle, 1000, ";")) {
        $data = array_map("utf8_encode", $data); //added
        $num = count ($data);
        for ($c=0; $c < $num; $c++) {
            // output data
            echo "<td>$data[$c]</td>";
        }
        echo "</tr><tr>";
}
?>

【讨论】:

  • 这完全去掉了带空格的特殊字符,太危险了!!!
  • $data = array_map("utf8_encode", $data); > 工作得很好,谢谢!
  • @robssanches 上述代码仅适用于字母类型的单词(字符),但不适用于其他语言,例如中文、印地语、希伯来语等。
  • 这对我有帮助。应该被认为是正确的。
  • 这对我有用。很遗憾,官方文档中缺少这条有用的行de.php.net/manual/de/function.fgetcsv.php
【解决方案3】:

遇到类似问题:解析带有特殊字符的 CSV 文件,如 é、è、ö 等...

以下对我来说很好用:

为了在 html 页面上正确地表示字符,需要标题:

header('Content-Type: text/html; charset=UTF-8');

为了正确解析每个字符,我使用了:

utf8_encode(fgets($file));

不要忘记在以下所有字符串操作中使用“多字节字符串函数”,例如:

mb_strtolower($value, 'UTF-8');

【讨论】:

  • 您为我节省了很多时间,谢谢!多年来我一直在尝试解决这个问题..
  • 完整的示例代码,其中 utf8_encode(fgets($file));实际使用会很好
【解决方案4】:

问题是函数返回UTF-8(可以使用mb_detect_encoding检查),但是不转换,这些字符被当作UTF-8。 Т因此,有必要使用iconv 反向转换为初始编码(Windows-1251 或 CP1251)。但是由于由 fgetcsv 返回一个数组,我建议编写一个自定义函数: [对不起我的英语]

function customfgetcsv(&$handle, $length, $separator = ';'){
    if (($buffer = fgets($handle, $length)) !== false) {
        return explode($separator, iconv("CP1251", "UTF-8", $buffer));
    }
    return false;
}

【讨论】:

    【解决方案5】:

    现在我让它工作了(在删除 header 命令之后)。我认为问题在于 php 文件的编码在 ISO-8859-1 中。我将其设置为没有 BOM 的 UTF-8。我以为我已经这样做了,但也许我做了额外的撤消。

    此外,我使用SET NAMES 'utf8' 作为数据库。现在在数据库中也是正确的。

    【讨论】:

    • 如果导入的文件是另一个字符集而不是您的代码,您可能还需要 setlocale()。
    【解决方案6】:

    尝试将其放入文件顶部(在任何其他输出之前):

    <?php
    
    header('Content-Type: text/html; charset=UTF-8');
    
    ?>
    

    【讨论】:

    • 如果我把它放在上面,我会得到......
    • 也许我应该提一下,我通过enctype="multipart/form-data" accept-charset="utf-8" 的表单上传了 csv 文件。如果我将您的代码放入示例中,那么它似乎可以工作。
    • @testing 对我产生了影响。我正在解析 2 个 CSV,一个有 accept-charset="utf-8" 而另一个没有,直到我使用它才正确显示。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2015-11-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-09-18
    相关资源
    最近更新 更多