【发布时间】:2016-07-28 13:42:56
【问题描述】:
我正在尝试从tripadvisor 网站上抓取评论。文本较长的评论部分显示为“更多”链接。我已经使用 selenium 来点击“更多”链接并且它正在工作,但我在最终输出文件中再次获得了一半的评论。
我发现完整的评论存储在不同的类中,但我如何访问不同的类?
请看下面我的部分代码:
driver.get(full_url)
driver.find_element_by_css_selector("span.moreLink").click()
r = requests.get(full_url)
soup = BeautifulSoup(r.content, "lxml")
#soup = BeautifulSoup(source, 'html.parser')
page_count = int(soup.select('.pagination a')[-1].text.strip())
page_results = soup.find_all("p", {"class" : "partial_entry"})
【问题讨论】:
标签: python selenium web-scraping