【问题标题】:PHP & mySQL: When exactly to use htmlentities?PHP & mySQL:何时使用 htmlentities?
【发布时间】:2010-01-16 14:20:18
【问题描述】:

平台: PHP & mySQL

出于实验目的,我自己在自己的网站上尝试了一些 XSS 注入。考虑一下我有表单文本区域输入的这种情况。由于这是一个文本区域,我可以输入文本和各种(英文)字符。以下是我的观察:

A)。如果我只应用 strip_tags 和 mysql_real_escape_string 并且在将数据插入数据库之前在我的输入中不使用 htmlentities,查询正在中断,我会遇到显示我的表结构的错误,因为异常终止。

B)。如果我在将数据插入数据库之前对我的输入应用 strip_tags、mysql_real_escape_string 和 htmlentities,查询不会中断,并且我能够成功地将来自 textarea 的数据插入到我的数据库中。

所以我明白必须不惜一切代价使用 htmentities,但不确定何时应该使用它。考虑到上述情况,我想知道:

  1. 什么时候应该使用 htmlentities?应该在将数据插入数据库之前使用它还是以某种方式将数据放入数据库,然后在我尝试显示来自数据库的数据时应用 htmlentities?

  2. 如果我按照上面 B) 点中描述的方法(我认为这是我的案例中最明显和最有效的解决方案),当我尝试显示来自D B?如果是这样,为什么?如果不是,为什么不呢?我之所以这么问,是因为在我浏览了http://shiflett.org/blog/2005/dec/google-xss-example

  3. 的帖子后,我真的很困惑
  4. 还有一个 PHP 函数,称为:html_entity_decode。当 htmlentities 应用于我的输入时,我可以使用它来显示来自 DB 的数据(在按照 B 点所示的程序进行操作之后)吗?我应该更喜欢哪一个:html_entity_decode 和 htmlentities 以及何时?

预览页面:

我认为在这里添加一些特定情况的更具体细节可能会有所帮助。考虑有一个“预览”页面。现在,当我从 textarea 提交输入时,预览页面会接收输入并将其显示为 html,同时隐藏的输入会收集此输入。当点击预览按钮上的提交按钮时,来自隐藏输入的数据被 POST'ed 到一个新页面,并且该页面将隐藏输入中包含的数据插入到数据库中。如果我在最初提交表单时不应用 htmlentities(但仅应用 strip_tags 和 mysql_real_escape_string)并且在 textarea 中存在恶意输入,则隐藏输入被破坏并且隐藏输入的最后几个字符明显显示为 " /> on页面,这是不可取的。所以记住这一点,我需要做一些事情来正确地在预览页面上保持隐藏输入的完整性,同时收集隐藏输入中的数据,这样它就不会破坏它。我该怎么做?对于延迟发布此信息表示歉意。

提前谢谢你。

【问题讨论】:

  • 提示:大多数时候,您不应该使用 htmlentities,而应该使用 htmlspecialchars。 htmlentities 转换大量字符,而 htmlspecialchars 只转换必须转换的字符。
  • @Michael Madsen:感谢您的提示。该表单接受您可以使用基于美国的键盘键入的所有输入。所以我有一个想法,使用 htmlentities 会更安全,以防有人试图从其他网站或他们自己的本地系统手动复制和粘贴一些奇怪的字符。所以我选择使用 htmlentities。你怎么看?
  • 没有意义。是的,奇怪的字符可能看起来……嗯,在您的网站上很奇怪。但是您并不能通过使用 htmlentities 来避免这种情况,因为实体只是表示同一字符的不同方式。它们在 HTML 中没有任何特殊含义,因此翻译它们没有任何优势 - 最终结果看起来相同,只是使用更多字节来显示。
  • 啊,我明白了!非常感谢并感谢您的解释。

标签: php mysql


【解决方案1】:

这是一般的经验法则。

最后可能的时刻转义变量。

您希望您的变量是数据的清晰表示。也就是说,如果您尝试存储名为“O'Brien”的人的姓氏,那么您肯定想要这些:

O'Brien
O\'Brien

.. 因为,好吧,那不是他的名字:里面没有 & 或斜线。当您获取该变量并在特定上下文中输出它时(例如:插入 SQL 查询或打印到 HTML 页面),是您修改它的时候。

$name = "O'Brien";

$sql = "SELECT * FROM people "
     . "WHERE lastname = '" . mysql_real_escape_string($name) . "'";

$html = "<div>Last Name: " . htmlentities($name, ENT_QUOTES) . "</div>";

您永远不想将htmlentities 编码的字符串存储在您的数据库中。当您想要生成 CSV 或 PDF 或 不是 HTML 的任何内容时会发生什么?

保持数据干净,只在当前的特定上下文中转义。

【讨论】:

  • 很好奇,如果有一个项目你不允许用户使用任何html,所以你将一些东西作为非html文本保存到mysql中,你是否仍然需要在显示时使用htmlentities() ?
  • 定义非html文本?有些东西会认为这是 HTML:&lt;b&gt;foo&lt;/b&gt;。他们也会考虑这个 HTML:x&lt;y and y&gt;z。如果您不希望用户输入 HTML,那么不要将他们键入的任何内容视为 HTML - 也就是说,将其逐字保存到数据库中,并在回显到屏幕时将其 htmlentities。
  • 感谢您的回复。我编辑了我的原始帖子,以包含可能有助于进一步了解情况的信息。请参考它并发布您的回复。谢谢。
  • @nickf 我理解你的意思,但即使是流行的 phpBB 论坛也会在数据库中存储 htmlentites 编码的字符串。
【解决方案2】:
  1. 仅在您将值(无论是从 DB 还是从 $_GET/$_POST)打印到 HTML 之前。 htmlentities 与数据库无关。
  2. B 太过分了。您应该在插入数据库之前使用 mysql_real_escape_string,在打印到 HTML 之前使用 htmlentities。您不需要剥离标签,htmlentities 标签将在屏幕上显示为
    e.t.c

理论上,您可以在插入数据库之前执行 htmlentities,但如果您需要原始文本,这可能会使进一步的数据处理更加困难。

3. See above

【讨论】:

  • 在我看来,您不应该在插入数据库之前使用 htmlentities。如果你这样做,你就不会保留原始数据
  • 是的,我说的是同样的事情。但如果真的想要这样,它不会带来额外的安全风险,只是有点延迟。
  • @d03boy :谢谢你们的回复。我编辑了我的原始帖子,以包含可能有助于进一步了解情况的信息。请参考它并发布您的回复。谢谢。
【解决方案3】:

本质上,您应该在插入数据库之前使用mysql_real_escape_string(以防止SQL注入),然后在输出点使用htmlentities等。

您还需要对所有用户输入进行完整性检查,以确保(例如)数值是真正的数字等。is_intis_float 等函数在这一点上很有用。 (有关这些函数和其他类似函数的更多信息,请参阅 PHP 手册的 variable handling functions 部分。)

【讨论】:

  • @middaparka 谢谢。你说的对。但我试图确保我可以免受 CSS/XSS 攻击。 textarea 接受所有类型的输入,数字、字符等。简而言之,它接受您可以使用基于美国的键盘键入的所有输入。所以 is_int 等没有太大帮助,因为也允许其他类型的输入。我什至编辑了我的原始帖子以包含更具体的信息。请参考它并在适用时发布您的回复。非常感谢。
【解决方案4】:

我以前也经历过,学到了两件重要的事情:

如果您从 $_POST/$_GET/$_REQUEST 获取值并计划添加到 DB,请使用 mysql_real_escape_string 函数来清理这些值。不要使用 htmlentities 对它们进行编码。

为什么不直接用 htmlentities 对它们进行编码并将它们放入数据库中呢?嗯,事情是这样的——目标是使数据尽可能有意义和干净,当你用像 Jeff's Dog 这样的 htmlentities 对数据进行编码时,就会变成 Jeff's Dog……这将导致数据的上下文失去其意义。如果您决定实现 REST 服务并从 DB 中获取该字符串并将其放入 JSON - 它会像 Jeff's Dog 一样出现,它并不漂亮。您还必须添加另一个函数来解码。

假设您想使用 SQL“select * from table where field='Jeff\'s Dog'”搜索“Jeff's Dog”,由于“Jeff's Dog”与“Jeff”s 不匹配,因此您将找不到它狗。”不好,嗯?

要将字母数字字符串(从 CHAR 类型)输出到网页,请使用 htmlentities - 总是!

【讨论】:

  • 感谢您的评论。我同意你的看法。自从我们的朋友建议以来,我一直在使用 mysql_real_escape_string。那么您建议我们使用什么,htmlentities 或 htmlspecialchars 将字母数字字符串(从 CHAR、VARCHAR 类型)输出到网页?
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2012-07-27
  • 2020-09-30
  • 2011-11-08
  • 1970-01-01
相关资源
最近更新 更多