【发布时间】:2016-01-04 21:01:05
【问题描述】:
我正在尝试使用requests 模块构建网络爬虫,
基本上我想要它做的是去一个网页,获取所有href,然后将它们写入一个文本文件。
到目前为止,我的代码如下所示:
def getLinks(url):
response = requests.get(url).text
soup = BeautifulSoup(response,"html.parser")
for link in soup.findAll("a"):
print("Link:"+str(link.get("href")))
适用于某些网站
但我试图在href 上使用它的不是像“www.google.com”这样的完整域名,而是......指向重定向到链接的目录的路径?
看起来像这样:
href="/out/101"
如果我尝试将其写入文件,它看起来像这样
1. /out/101
2. /out/102
3. /out/103
4. /out/104
这不是我真正想要的。
我该如何从这些链接中获取域名?
【问题讨论】: