【发布时间】:2017-04-12 02:39:38
【问题描述】:
我有一个文本文件名 weburl 有很多网址我只想使用正则表达式获取基本网址 网址
wikimapia.org/1649944/Bahawalpur-Railway-Station
panoramio.com/photo/84118355
wikimapia.org/1649944/Bahawalpur-Railway-Station
nativepakistan.com/photos-of-bahawalpur
defence.pk/threads/pictures-of-pakistan-railways.303027
nativepakistan.com/photos-of-bahawalpur
panoramio.com/photo/51311162
https://hiveminer.com/User/Pakistan Rail Buff
需要这个
wikimapia.org
panoramio.com
wikimapia.org
nativepakistan.com
defence.pk
nativepakistan.com
panoramio.com
https://hiveminer.com
使用正则表达式我该怎么做?
【问题讨论】:
-
您将其归类为基本 URL 似乎是主观的
-
继续 akkatracker 的观点,我原以为 'defence.pk' 是一个 baseurl,但 'defence.pk/threads' 不是。您确定要查找的规则是“基本网址”吗?
-
帖子已编辑。请检查
-
Python 有解析 URL 的模块。为什么不尝试一下,等有代码后再回来?
-
你的 URL 可以包含端口规范吗?如果是,是否应该包括在内?
标签: python regex python-2.7 url text-files