【发布时间】:2013-03-13 11:25:15
【问题描述】:
我有一个让我发疯的问题。我正在使用 urllib2 来获取许多 url。有一个 url 有时会返回给我整个 html 页面,有时不会。这是我的代码:
def find_html(url):
req = urllib2.Request(url)
req.add_header('User-Agent', 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-GB; rv:1.8.1.14) Gecko/20080404 Firefox/2.0.0.14')
page_html = urllib2.urlopen(req).read()
n = string.find(page_html, "filter clearfix active")
print "find element:",n
url = "http://it.hotels.com/ho113127/rome-cavalieri-waldorf-astoria-hotels-resorts-roma-italia/"
find_html(url)
为什么会这样?我在哪里做错了? (我不想对这个 url 使用 selenium,我想使用 urllib2)
【问题讨论】:
-
如果只是一个 URL,也许是那个服务器?我怀疑这是 Python 或 urllib2 的问题..
-
我认为是服务器。使用这种网址我有这个问题
标签: python urllib2 fetch web-crawler