解析 HTML - 获取文本最多的段落答案

【问题标题】：Parsing HTML - Getting the paragraph with the most text解析 HTML - 获取文本最多的段落
【发布时间】：2014-10-08 04:36:28
【问题描述】：

我正在尝试解析 HTML 页面（该页面未知且经常更改，但它们始终是新闻站点）。基本上，我需要从从网站下载的一堆代码中提取新闻，我正在尝试使用这样的正则表达式：

Match m = Regex.Match(x.Result, @"<p>(.+?)</p>");

明显的坏主意 - 它会拉下任何标记为段落的内容。

有没有更好的方法从网站中提取新闻文章或大量文本，与代码分开？

【问题讨论】：

【解决方案1】：

好吧，这可能不是您想要的（您没有提供很多细节），但是您可以使用一对简单的正则表达式从页面中删除所有标签。

删除 javascript 和 CSS：

<(script|style).*?</\1>

删除标签

<.*?>

Credit goes to this existing answer. 剩下的就是页面中的“纯文本”。

【讨论】：