【问题标题】:Parsing HTML - Getting the paragraph with the most text解析 HTML - 获取文本最多的段落
【发布时间】:2014-10-08 04:36:28
【问题描述】:

我正在尝试解析 HTML 页面(该页面未知且经常更改,但它们始终是新闻站点)。基本上,我需要从从网站下载的一堆代码中提取新闻,我正在尝试使用这样的正则表达式:

Match m = Regex.Match(x.Result, @"<p>(.+?)</p>");

明显的坏主意 - 它会拉下任何标记为段落的内容。

有没有更好的方法从网站中提取新闻文章或大量文本,与代码分开?

【问题讨论】:

  • 发布一些输入和预期输出
  • 您能否查找任何有助于破译标签内数据是否对您有用的类或 ID?
  • ^要补充以上几点,请使用 HTML 解析库选择标签并要求它去除所有 HTML 标签。

标签: c# html regex windows-phone-8 windows-phone


【解决方案1】:

好吧,这可能不是您想要的(您没有提供很多细节),但是您可以使用一对简单的正则表达式从页面中删除所有标签。

删除 javascript 和 CSS:

<(script|style).*?</\1>

删除标签

<.*?>

Credit goes to this existing answer. 剩下的就是页面中的“纯文本”。

【讨论】:

    猜你喜欢
    • 2021-01-18
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-01-23
    • 2010-11-05
    • 2011-06-12
    • 1970-01-01
    • 2012-07-22
    相关资源
    最近更新 更多