【发布时间】:2013-01-02 14:22:18
【问题描述】:
需要一种使用 Python urlparse 从 url 中提取不带子域的域名的方法。
例如,我想从像"http://www.google.com" 这样的完整网址中提取"google.com"。
我似乎与urlparse 最接近的是netloc 属性,但这包括子域,在本例中为www.google.com。
我知道可以编写一些自定义字符串操作来将 www.google.com 转换为 google.com,但我想避免在此任务中手动进行字符串转换或正则表达式。 (原因是我对 url 形成规则不够熟悉,因此我有信心可以考虑编写自定义解析函数所需的每个边缘情况。)
或者,如果 urlparse 不能满足我的需求,有谁知道其他 Python url 解析库可以做到吗?
【问题讨论】:
-
当您说 删除 www 时,是指所有子域,还是仅指那个特定的子域?
-
@Lattyware -- 好问题,抱歉我没有说得更清楚。我编辑了问题以反映答案。
-
那么对于
google.co.uk,你想摆脱google?!? -
@Anony-Mousse,不,我想要来自 www.google.co.uk 的 google.co.uk。很抱歉,第一次措辞不是很清楚,我再次对其进行了编辑以使其更清晰。
标签: python parsing url urlparse