【发布时间】:2016-04-06 16:06:09
【问题描述】:
我需要从一个域开始并从站点中提取所有链接,然后继续从这些链接中提取链接。但是,我只应该遍历属于给定域的链接。我正在使用 BeautifulSoup。我能想到的唯一方法是测试href是href ='www.someotherdomain.com'的形式还是href ='page1/page2'的形式。前者表示链接指向新域,后者表示链接指向同一域中的页面。
所以我创建了一个名为 has_domain 的函数来检查链接是否已经拥有自己的域。代码如下所示:
def has_domain(url):
if 'www.' in url:
return True
else:
return False
问题是,并非种子域之外的每个链接都以“www”开头。有没有更简单的方法来检查链接是否指向新域?
【问题讨论】:
-
欢迎来到 SO。到目前为止,您尝试过什么鳕鱼?展示您的尝试将有助于我们为您提供帮助,同时也表明您为此付出了一些努力。
-
感谢理查德的回复。我希望我的编辑显示了我的尝试。
标签: python-2.7 beautifulsoup web-crawler