从传入字符串中删除所有垃圾的例程？答案

【问题标题】：Routine for removing ALL junk from incoming strings?从传入字符串中删除所有垃圾的例程？
【发布时间】：2010-10-10 10:07:48
【问题描述】：

有时当用户将数据复制并粘贴到输入表单中时，我们会得到如下字符：

ddnâ€™t,” 用于开头引号和 â€ 用于结尾引号等...

我使用此例程来清理 Web 表单上的大多数输入（我之前写过，但也在寻找改进）：

function fnSanitizePost($data) //escapes,strips and trims all members of the post array
{
    if(is_array($data))
    {
    $areturn = array();
    foreach($data as $skey=>$svalue)
    {
      $areturn[$skey] = fnSanitizePost($svalue);
    }
    return $areturn;
  }
  else
    {
      if(!is_numeric($data))
        {
            //with magic quotes on, the input gets escaped twice, which means that we have to strip those slashes. leaving data in your database with slashes in them, is a bad idea
            if(get_magic_quotes_gpc()) //gets current configuration setting of magic quotes
      {
        $data = stripslahes($data);
      }
        $data = pg_escape_string($data); //escapes a string for insertion into the database
        $data = strip_tags($data);  //strips HTML and PHP tags from a string
      }
        $data = trim($data);  //trims whitespace from beginning and end of a string
      return $data;
    }
}

我真的很想避免上面提到的字符被存储在数据库中，我是否需要在我的清理程序中添加一些正则表达式替换？

谢谢，

-尼古拉斯

【问题讨论】：

这是一个智能引用问题，显然这是一个似乎只有在 MS Word 参与剪切/粘贴时才会出现的问题。如果我想在进入数据库之前替换这些，我应该创建一个字符数组还是它们的代码？（——或者它的数值？）

标签： php string sanitization

【解决方案1】：

没有，“用于开头引号和“用于结尾引号”

这不是垃圾，它们是合法的“智能引号”字符，它们被传递给您，编码为 UTF-8，但被错误地读取为 ISO-8859-1。

您可以尝试摆脱它们或尝试使用 utf_decode 将它们解析为普通的旧 Latin-1，但如果您这样做，您将拥有一个不允许您在 ASCII 之外键入任何内容的应用程序，这在今天年龄是一个相当糟糕的表现。

如果您可以管理它，最好将您的所有页面都以 UTF-8 格式提供，所有表单提交都以 UTF-8 格式输入，并且所有数据库内容都以 UTF-8 格式存储。理想情况下，您的应用程序将在内部使用所有 Unicode 字符，但不幸的是 PHP 作为一种语言没有原生 Unicode 字符串，因此通常将所有字符串也保存为 UTF-8，并冒着偶尔截断的风险UTF-8 序列并得到一个�，除非你想处理 mbstring。

$data = pg_escape_string($data); //转义字符串以插入数据库

$data = strip_tags($data); //从字符串中去除 HTML 和 PHP 标记

您不希望将其作为进入您的应用程序的消毒措施。将所有字符串保存为纯文本形式以便处理它们，然后 pg_escape_string() 仅在输出到 Postgres 查询时使用，而 htmlspecialchars() 仅在输出到 HTML 页面时使用。

否则你会得到奇怪的东西，比如 SQL 转义出现在直接通过脚本传递到输出页面的变量上，并且没有人能够使用普通的小于字符。

您可以做的一件有用的清理措施是删除字符串中的所有控制代码（除了换行符，\n，您可能想要）。

$data= preg_replace('/[\x00-\x09\x0B-\x19\x7F]/', '', $data);

【讨论】：

这种方法加上一些 str_replace （用于特殊情况）效果很好。它并非完美无瑕，但绝对更好。谢谢。

【解决方案2】：

您想查看PHP's utf_decode 函数：将带有以 UTF-8 编码的 ISO-8859-1 字符的字符串转换为单字节 ISO-8859-1。看来您正在获取 UTF 字符，而数据库无法处理这些字符。

如果可能，另一种解决方案是更改数据库的编码。

【讨论】：

只是为了确保我理解，更改数据库的编码会自动导致这些字符被转换还是不允许？这显然是从各种来源复制/粘贴的结果，但绝对需要“修复”。
数据库中已有的任何值都不会被视为它们的 UTF 字符。您需要在更改后重新填充数据库，或者有一个脚本通过并更新它们。
在旧系统方面有过类似经验，您现在可能会节省大量更新数据库的时间。我同意 bobince，将所有内容更新为 UTF8。

【解决方案3】：

我终于想出了一个替换这些字符的例程。它需要一次一个字符地解析一些有问题的字符串并返回每个字符的八进制值。在这样做的过程中，我了解到智能引号字符以 3 个八进制值的形式返回。这是我用来解析字符串的例程：

$str = "string_with_smart_quote_chars";

$ilen = strlen($str);
$sords = NULL;

echo "$str\n\n";

for($i=0; $i<$ilen; $i++)
{
    $sords .= ord(substr($str, $i, 1))."  ";
}

echo "$sords\n\n";

以下是用于“修复”字符串的 str_replace() 调用：

$str = str_replace(chr(226).chr(128).chr(156), '"', $str); // start quote
$str = str_replace(chr(226).chr(128).chr(157), '"', $str); // end quote
$str = str_replace(chr(226).chr(128).chr(153), "'", $str); // for single quote

我将继续构建这些搜索/替换的数组，我相信随着这些类型字符的使用越来越多，它们会继续增长。

我知道有一些固定例程可以替换这些例程，但在运行我的脚本的 Solaris 10 平台上我没有运气。

-- 尼古拉斯

【讨论】：

+1 我也为此苦苦挣扎多年。有趣的是，我通过搜索三个字符代码 226、128、156 找到了您的答案，我使用与您描述的相同的逐字符分析找到了这些代码。

【解决方案4】：

Zend Framework 的Zend_Filter 和Zend_Filter_Input 有非常好的工具。

【讨论】：

哪个 Zend_XXX 过滤器解决了这个问题？我找不到任何适用的。