【问题标题】:regex matching websites only with http without www正则表达式匹配网站只有 http 没有 www
【发布时间】:2012-05-17 20:28:06
【问题描述】:

我想从 HTML 代码中获取所有网站。问题是我有一个正则表达式,它接受所有 URL,但地址中需要有 www。我需要使用哪种正则表达式来获取内容中没有 www 的 URL?

更新:我使用的正则表达式是:

string anchorPattern = 
  @"(?<Protocol>\w+)://(?<Domain>[\w@][\w.:@]+)/?[\w.?=%&=\-@/$,&amp;+]*'";

【问题讨论】:

  • 必答题:你现在有什么正则表达式?
  • @AdamMihalcin:只要他只想提取 URL,就可以使用正则表达式。它是一个 HTML 文档这一事实并不重要,因为他并没有在例如内部寻找 url。 href 属性。

标签: c# .net html regex


【解决方案1】:

仅为具有 www 的网址添加 (?=www)

@"(?<Protocol>\w+)://(?=www)(?<Domain>[\w@][\w.:@]+)/?[\w.?=%&=\-@/$,&amp;+]*"

或添加 (?!www) 以表示没有 www 网址

@"(?<Protocol>\w+)://(?!www)(?<Domain>[\w@][\w.:@]+)/?[\w.?=%&=\-@/$,&amp;+]*"

【讨论】:

    【解决方案2】:

    一个像你一样,但没有看起来像www\.的正则表达式部分

    【讨论】:

      猜你喜欢
      • 2014-05-07
      • 2014-01-25
      • 1970-01-01
      • 1970-01-01
      • 2016-07-26
      • 1970-01-01
      • 1970-01-01
      • 2021-07-11
      相关资源
      最近更新 更多