【发布时间】:2011-06-15 21:13:52
【问题描述】:
我正在研究多字节字符以及它们是如何使用的,但有多少不同的标识符/修饰符用于不同的多字节。
例如:&nbps;,&#nbsp;,U+0026,%20
&,&#,u+,% 等有多少种不同的标识符?
如果输入的单词长度超过 255 个字符,则我尝试查找输入,那么它可能是多字节(黑客尝试),然后我可以检查单词是否可以拆分具有多字节标识符,然后停止黑客尝试。
【问题讨论】:
-
搜索 HTML 实体,应该可以解释其中的大部分内容。你在哪里找到nbsp;?那不是合法的 HTML 实体。也许你的意思是 <.
-
这完全取决于要解析字符串的引擎。我认为为此构建一个通用的“黑客检测”解决方案没有意义。
-
抱歉,您的问题不清楚。
&nbsp;或&#x0026被称为 HTML/XML 实体,%20是 URI 转义序列。什么叫多字节,你想做什么? -
@merijn 我知道
&#nbsp;,但想不出这种类型的实体是如何工作的,但我仍然知道它是类似的,@benoit 好吧,我想要做的是问题让假设输入类似于hello world,您有 2 个单词,每个单词 5 个字母,但如果您有&nbps;&nbps;&nbps;&nbps;,其中没有空格,因此它不是普通文本,而是一个特殊字符,那么我可以决定如何处理这些特殊字符。
标签: php javascript html multibyte