【发布时间】:2020-12-31 00:29:13
【问题描述】:
我正在使用 Python 中的 Regex 模块进行练习,但遇到了困难。我设法从最后一段 URL 字符串中只提取单词,不包括 .pdf、.jpg 等格式类型......例如:
first-second-third.pdf
只接收“第一”、“第二”、“第三”。
我用过这样的模式:
pattern1=re.compile(r"(?<!\.)\b\w+")
pattern2=re.compile(r"(?<!\.)\b[a-z]+")
这些模式适用于前面的 URL 示例,但不适用于以下 URL:
first_second_third.pdf
first%20second%20third.pdf
要查找我使用的所有单词:
matching=re.findall(pattern1or2,url)
所以问题是我的匹配中包含的“_”或“%20”等字符。 一些技巧 ?非常感谢。
编辑:我表达得不好。我的意思是 URL 的最后一部分,它标识了假设文件的格式。
【问题讨论】:
-
首先,您不会在域名中找到空格 (
%20)... -
感谢先生的理解。 @MattDMo。您的幽默评论将对我的目的非常有用:))。
标签: python-3.x regex string url