【发布时间】:2009-05-27 11:21:30
【问题描述】:
我真的不知道如何最好地做到这一点,我可以做相当简单的正则表达式,但更复杂的表达式真的难倒我。
以下内容出现在特定的 HTML 文档中:
<span id="label">
<span>
<a href="http://variableLink">Joe Bloggs</a>
now using
</span>
<span>
'
<a href="/variableLink/">Important Data</a>
'
</span>
<span>
on
<a href="/variableLink">Important data 2</a>
</span>
</span>
我需要提取两个“重要数据”点,并且可能会花费数小时来计算正则表达式。(我在 C# 3.5 中使用 .net 正则表达式库)
【问题讨论】:
-
恐怕我帮不了你,但如果你在 .NET RegEx 方面需要帮助,试试 Expresso ultrapico.com/Expresso.htm 它是免费的,非常适合测试 RegEx。
-
必须使用正则表达式,还是可以使用 HTML 解析库,如 HTML Agility Pack (codeplex.com/htmlagilitypack)?
-
我可以使用任何东西,不必是正则表达式。
-
第一个和最后两个链接有什么区别?是否以 http:// 开头?
-
您必须真正详细说明您的问题 - 从您对我的回答的评论中,我知道您只对特定 标记内的链接感兴趣。这产生了一个新问题 - 第一个链接周围的 标记与后面两个链接的 标记有何不同?身份属性?那么只有没有 id 属性的 span 内的链接?