【发布时间】:2011-03-09 22:47:15
【问题描述】:
关于何时以及是否适合使用正则表达式来解析 html 存在很多争论。
出现的一个常见问题是从 html 解析链接,我的问题是,如果您要查找的只是 HTML 块中 <a> 标记的 href 值,那么使用正则表达式是否合适?在这种情况下,您不关心结束标签,并且您正在寻找一个非常具体的结构。
使用完整的 html 解析器似乎有点过头了。虽然我看到问题和答案表明使用正则表达式来解析 URL,虽然在很大程度上安全并不完美,但结构化 <a> 标签的额外限制似乎提供了一个上下文,一个应该能够在不破坏的情况下达到 100% 的准确性出汗。
想法?
【问题讨论】: