【发布时间】:2011-06-08 23:49:11
【问题描述】:
我正在寻找可以用来修复损坏的 HTML 的算法和数据结构。我知道每种语言都有很多内置工具可以做到这一点。但是我想学这个。我能想到的一些方法是 -
- 使用正则表达式 - 似乎是一种幼稚的方法
- 创建 DOM - 但是如何使用损坏的 html 创建 DOM 树?
更新:这更像是我期待的一般性讨论。但是,如果您引用 C、C++、Python 或 Java 中的任何工具,我都可以。
谢谢
【问题讨论】:
标签: algorithm language-agnostic dom data-structures html-parsing