【发布时间】:2014-10-08 04:36:28
【问题描述】:
我正在尝试解析 HTML 页面(该页面未知且经常更改,但它们始终是新闻站点)。基本上,我需要从从网站下载的一堆代码中提取新闻,我正在尝试使用这样的正则表达式:
Match m = Regex.Match(x.Result, @"<p>(.+?)</p>");
明显的坏主意 - 它会拉下任何标记为段落的内容。
有没有更好的方法从网站中提取新闻文章或大量文本,与代码分开?
【问题讨论】:
-
发布一些输入和预期输出
-
您能否查找任何有助于破译标签内数据是否对您有用的类或 ID?
-
^要补充以上几点,请使用 HTML 解析库选择标签并要求它去除所有 HTML 标签。
标签: c# html regex windows-phone-8 windows-phone