【发布时间】:2011-06-06 00:02:30
【问题描述】:
可能重复:
If you're not supposed to use Regular Expressions to parse HTML, then how are HTML parsers written?
我的问题很简单:当前的 DOM 解析器实际上如何从字符串(XML、HTML 或其他)解析 DOM?
我知道you shouldn't parse html with RegEx,但是 DOM 解析器不能使用 RegEx 来匹配打开/关闭标签的模式吗?或者,是否有一个很好的一次性算法将提供的字符串解析为字符数组?
【问题讨论】:
-
取决于解析器的实现不是吗?
-
但是要快速回答这个确切的问题:最可能使用正则表达式 - 但仅用于标记化(例如识别开始和结束标签)。
-
不知何故我错过了这个问题,我投票决定关闭这个副本。