【发布时间】:2019-12-29 06:20:29
【问题描述】:
我正在尝试从旅行顾问网站上抓取一些酒店的评论数据。首先,我尝试抓取某家酒店的第一次评论的评论 ID。我运行了我的代码并且可以得到它。但奇怪的是,有时我会收到错误,索引超出范围,即使我运行相同的代码(没有更改我的代码的任何行)。我不是网络抓取专家,但我的猜测是我的代码在我解析页面之前运行。所以我在我的代码中间包含了 time.sleep(n) 但仍然出现同样的问题。有谁知道为什么会这样?下面是我的代码。
import urllib
import time
from urllib import urlopen
from bs4 import BeautifulSoup
page=urlopen("https://www.tripadvisor.com/Hotel_Review-g60878-d13428699-Reviews-Staybridge_Suites_Seattle_Downtown_Lake_Union-Seattle_Washington.html")
soup=BeautifulSoup(page,"html.parser")
time.sleep(5)
listing=soup.find_all("div", class_="review-container")
review_id=listing[0]["data-reviewid"]
print (review_id)
【问题讨论】:
标签: python-2.7 web-scraping beautifulsoup