【发布时间】:2020-01-03 12:15:19
【问题描述】:
我正在用下面的代码抓取一个网站,在我运行两次后,第三次显示错误
HTTP 错误 508:检测到循环
req = Request(url, headers={'User-Agent': 'Mozilla/5.0'})
webpage = urlopen(req).read()
soup=BeautifulSoup(webpage)
liList=soup.find('div',attrs={'class':'columns-list'})
links=[]
for a in liList.find_all('a'):
req = Request(a.attrs['href'], headers={'User-Agent': 'Mozilla/5.0'})
webpage = urlopen(req).read()
data=BeautifulSoup(webpage)
h=data.find("div",attrs={'class':'first-h2'})
print(h.h2.text)
print(data.find("h5"))
如何预防?有时它会起作用,而有时它会给出这个错误
【问题讨论】:
标签: python web-scraping web-crawler urllib