【发布时间】:2015-10-23 21:24:31
【问题描述】:
我有很多来自同一份报纸的网址,每个网址都有每个作者的存放处。
例如:
有人可以帮我写一个可以生成所有作者网址的正则表达式吗?
谢谢!
【问题讨论】:
-
你的预期输出是什么......像
Zinab-Ghasab.aspx或只有Zinab-Ghasab
标签: regex python-2.7 beautifulsoup python-requests
我有很多来自同一份报纸的网址,每个网址都有每个作者的存放处。
例如:
有人可以帮我写一个可以生成所有作者网址的正则表达式吗?
谢谢!
【问题讨论】:
Zinab-Ghasab.aspx 或只有Zinab-Ghasab
标签: regex python-2.7 beautifulsoup python-requests
为了获得Zinab-Ghasab.aspx,您不需要正则表达式。
只需遍历所有这些 URL 并使用
print s[s.rfind("/")+1:]
一个正则表达式看起来像
print re.findall(r"/([^/]+)\.aspx", input)
它将从不带 .aspx 扩展名的输入中获取所有值。
【讨论】:
您可以在“re”模块中使用findall() 方法。
假设您正在从文件中读取内容
现在,writer_urls 列表包含所有必需的 url。
【讨论】: