【发布时间】:2014-11-02 23:53:35
【问题描述】:
我正在尝试使用 urllib2 打开多个页面。问题是某些页面无法打开。它返回urllib2.HTTPerror: HTTP Error 400: Bad Request
我正在从另一个网页获取此页面的 href(页面头部是 charset = "utf-8")。 仅当我尝试打开 url 中包含“č”、“ž”或“ř”的页面时,才会返回错误。
代码如下:
def getSoup(url):
req = urllib2.Request(url)
response = urllib2.urlopen(req)
page = response.read()
soup = BeautifulSoup(page, 'html.parser')
return soup
hovienko = getSoup("http://www.hovno.cz/hovna-az/a/1/")
lis = hovienko.find("div", class_="span12").find('ul').findAll('li')
for liTag in lis:
aTag = liTag.find('a')['href']
href = "http://www.hovno.cz"+aTag """ hrefs, I'm trying to open using urllib2 """
soup = getSoup(href.encode("iso-8859-2")) """ here occures errors when 'č','ž' or 'ř' in url """
有谁知道,我必须做些什么来避免错误?
谢谢
【问题讨论】: