【发布时间】:2020-11-17 09:22:53
【问题描述】:
我对网络抓取非常陌生。我已经开始在 Python 中使用 BeautifulSoup。我编写了一个代码,它将遍历一个 url 列表并获取我需要的数据。该代码适用于 10-12 个链接,但我不确定如果列表有超过 100 个链接,相同的代码是否有效。是否有任何替代方法或任何其他库可以通过输入大量 url 列表来获取数据,而不会以任何方式损害网站。到目前为止,这是我的代码。
url_list = [url1, url2,url3, url4,url5]
mylist = []
for l in url_list:
url = l
res = get(url)
soup = BeautifulSoup(res.text, 'html.parser')
data = soup.find('pre').text
mylist.append(data)
【问题讨论】:
-
您提出 100 个请求并没有“损害”网站。更大的数字可能会开始出现问题。您使用的库没有区别。该网站必须处理与您发送给它的请求一样多的请求。如果您想对服务器更加温和,可以在请求之间添加
time.sleep(number_of_seconds)。
标签: python web-scraping beautifulsoup