【发布时间】:2017-10-16 17:43:42
【问题描述】:
我正在尝试从 URL 列表中提取域名。就像在
https://stackoverflow.com/questions/18331948/extract-domain-name-from-the-url
我的问题是 URL 可以是关于一切的,几个例子:m.google.com => googlem.docs.google.com => googlewww.someisotericdomain.innersite.mall.co.uk => mallwww.ouruniversity.department.mit.ac.us => mitwww.somestrangeurl.shops.relevantdomain.net => relevantdomain www.example.info => example
等等..
域的多样性不允许我使用how to get domain name from URL 中所示的正则表达式(因为我的脚本将在来自真实网络流量的大量 url 上运行,所以正则表达式必须很大才能捕获所有类型如上所述的域)。
不幸的是,我的网络研究没有提供任何有效的解决方案。
有没有人知道如何做到这一点?
任何帮助将不胜感激 !
谢谢
【问题讨论】:
-
你可以使用外部库吗?
-
收集顶级域列表,用点分割您的网址,从 TLD 中删除您的网址,提取名称。
-
是的,我可以使用外部库。这不是重复(我什至附上了这个帖子的链接),我在那里找不到令人满意的答案。
标签: python regex url server package