【发布时间】:2012-05-23 13:28:52
【问题描述】:
我正在编写一个搜索引擎,它可以访问我公司所有附属网站,解析 html 并将它们存储在数据库中。这些网站非常老旧,在 100000 个网站中不兼容 html,大约 25% 的网站的 html 不好,难以解析。我需要编写一个可能修复错误 html 的 c# 代码,然后解析内容或提出解决上述问题的解决方案。如果您有想法,实际的提示或代码 sn-p 会有所帮助。
【问题讨论】:
-
我知道 Wordpress 有一个自动更正的 html 代码,你可以查看它的源代码,看看他们是如何做到的 - 并尝试相同的逻辑
-
不好的 html 是什么意思?如果标签没有关闭,我认为解析将是一场噩梦。