【问题标题】:parsing URL in newspaper website解析报纸网站中的 URL
【发布时间】:2015-10-23 21:24:31
【问题描述】:

我有很多来自同一份报纸的网址,每个网址都有每个作者的存放处。

例如:

  1. http://alhayat.com/Opinion/Zinab-Ghasab.aspx
  2. http://alhayat.com/Opinion/Abeer-AlFozan.aspx
  3. http://www.alhayat.com/Opinion/Suzan-Mash-hadi.aspx
  4. http://www.alhayat.com/Opinion/Thuraya-Al-Shahri.aspx
  5. http://www.alhayat.com/Opinion/Badria-Al-Besher.aspx

有人可以帮我写一个可以生成所有作者网址的正则表达式吗?

谢谢!

【问题讨论】:

  • 你的预期输出是什么......像Zinab-Ghasab.aspx 或只有Zinab-Ghasab

标签: regex python-2.7 beautifulsoup python-requests


【解决方案1】:

为了获得Zinab-Ghasab.aspx,您不需要正则表达式。

只需遍历所有这些 URL 并使用

print s[s.rfind("/")+1:]

sample demo

一个正则表达式看起来像

print re.findall(r"/([^/]+)\.aspx", input)

它将从不带 .aspx 扩展名的输入中获取所有值。

【讨论】:

    【解决方案2】:

    您可以在“re”模块中使用findall() 方法。

    假设您正在从文件中读取内容

    • 重新导入
    • fp = open("file_name", "r")
    • 内容 = fp.read()
    • writer_urls = re.findall("https?://.+.com/.+/(.*).aspx", 内容)
    • fp.close()

    现在,writer_urls 列表包含所有必需的 url。

    【讨论】:

      猜你喜欢
      • 2011-05-26
      • 2016-11-08
      • 1970-01-01
      • 2016-01-19
      • 1970-01-01
      • 2020-08-05
      • 2020-12-23
      • 2014-12-19
      • 2013-05-23
      相关资源
      最近更新 更多