解析报纸网站中的 URL答案

【问题标题】：parsing URL in newspaper website解析报纸网站中的 URL
【发布时间】：2015-10-23 21:24:31
【问题描述】：

我有很多来自同一份报纸的网址，每个网址都有每个作者的存放处。

例如：

http://alhayat.com/Opinion/Zinab-Ghasab.aspx

http://alhayat.com/Opinion/Abeer-AlFozan.aspx

http://www.alhayat.com/Opinion/Suzan-Mash-hadi.aspx

http://www.alhayat.com/Opinion/Thuraya-Al-Shahri.aspx

http://www.alhayat.com/Opinion/Badria-Al-Besher.aspx

有人可以帮我写一个可以生成所有作者网址的正则表达式吗？

谢谢！

【问题讨论】：

你的预期输出是什么......像Zinab-Ghasab.aspx 或只有Zinab-Ghasab

标签： regex python-2.7 beautifulsoup python-requests

【解决方案1】：

为了获得Zinab-Ghasab.aspx，您不需要正则表达式。

只需遍历所有这些 URL 并使用

print s[s.rfind("/")+1:]

见sample demo。

一个正则表达式看起来像

print re.findall(r"/([^/]+)\.aspx", input)

它将从不带 .aspx 扩展名的输入中获取所有值。

【讨论】：

【解决方案2】：

您可以在“re”模块中使用findall() 方法。

假设您正在从文件中读取内容

重新导入
fp = open("file_name", "r")
内容 = fp.read()
writer_urls = re.findall("https?://.+.com/.+/(.*).aspx", 内容)
fp.close()

现在，writer_urls 列表包含所有必需的 url。

【讨论】：