【发布时间】:2014-08-15 01:29:07
【问题描述】:
我正在尝试抓取一个站点(大约 7000 个链接,全部在一个列表中),并且由于我的方法,这需要很长时间,我想我可以接受(因为这意味着不被发现)。但是,如果我在尝试检索页面时遇到任何错误,我可以跳过它吗?现在,如果出现错误,代码会中断并给我一堆错误消息。这是我的代码:
Collection 是列表和结果文件的列表。基本上,我正在尝试使用get_url_data()(我有一个之前的问题要感谢)运行一个循环,而我的所有网址都在urllist 中。我有一个叫做HTTPError 的东西,但它似乎并不能处理所有的错误,因此这篇文章。在相关的支线任务中,获得无法处理的 url 列表也很好,但这不是我主要关心的问题(但如果有人能告诉我如何处理会很酷)。
Collection=[]
def get_url_data(url):
try:
r = requests.get(url, timeout=10)
r.raise_for_status()
except HTTPError:
return None
site = bs4.BeautifulSoup(r.text)
groups=site.select('div.filters')
word=url.split("/")[-1]
B=[]
for x in groups:
B.append(word)
T=[a.get_text() for a in x.select('div.blahblah [class=txt]')]
A1=[a.get_text() for a in site.select('div.blah [class=txt]')]
if len(T)==1 and len(A1)>0 and T[0]=='verb' and A1[0]!='as in':
B.append(T)
B.append([a.get_text() for a in x.select('div.blahblah [class=ttl]')])
B.append([a.get_text() for a in x.select('div.blah [class=text]')])
Collection.append(B)
B=[]
for url in urllist:
get_url_data(url)
我认为主要的错误代码是这个,它触发了其他的因为有一堆以During handling of the above exception, another exception occurred开头的错误。
Traceback (most recent call last):
File "C:\Python34\lib\site-packages\requests\packages\urllib3\connectionpool.py", line 319, in _make_request
httplib_response = conn.getresponse(buffering=True)
TypeError: getresponse() got an unexpected keyword argument 'buffering'
【问题讨论】:
-
您通常会遇到什么样的错误?它们都与网络抓取有关还是来自其他东西?错误在哪里被抛出?如果您只是扩展您的
tryexcept块,您可能可以解决问题 -
@Dannnno 我会粘贴错误代码,但它有点长。我会发布我认为主要的内容。
-
如果你看一下,你会发现只有
TypeError,而不是HTTPError。如果您扩展您的 except 块(例如except Exception),您应该能够捕获所有这些(尽管这通常不是很好的做法) -
@Dannnno 谢谢,那么最佳做法是什么?另外,这部分代码不是我写的,那么
return None是什么意思呢?它是停止一切,还是只是跳过?如果它正在跳过,我可以以某种方式存储导致跳过的网址吗?似乎如果我收到 HTTPError,它仍在运行其余代码,即使这没有任何好处? -
最佳实践是明确捕获您预期会发生的每个异常,以便仍然注意到任何意外情况 (
except HTTPError, TypeError)。return None将值None返回到调用函数的位置 - 超过该点时不会评估函数。如果您想获取有问题的 url,则必须将 return 语句更改为return url之类的内容,或者您必须更改 for 循环中的逻辑
标签: python error-handling web-scraping python-requests