【发布时间】:2011-06-28 13:47:00
【问题描述】:
这只是一个一般性问题。目前我正在使用正则表达式进行网页抓取。但我认为有时很难弄清楚正则表达式,所以我在想 XSL/XPath 是 C# 中正则表达式的替代品吗?
另外,我想知道除了上面列出的两种之外,是否还有更高级的网页抓取技术。谢谢。
【问题讨论】:
-
xsl/xpath 要求页面是 XHTML 1.0,并非所有 html 都符合 xml 解析器容易使用的内容
-
@rene:这是干净利落的吗?如果网页是XHTML1.0,那么Xpath可以用C#,如果不是XHTML1.0,那就另谋出路?
-
关于 xhtml 1.0 的声明(在文档类型中)与实际符合 xhtml 1.0 之间存在差异。不,对不起,没有干净利落。但看起来你已经有了很好的答案
-
令人惊讶的是,此类问题的最佳答案已发布在一个更老且更具体的问题中:stackoverflow.com/questions/18065526/…