【问题标题】:Extracting data from paginated nested links从分页嵌套链接中提取数据
【发布时间】:2017-06-26 00:17:56
【问题描述】:

我有一个大约 17 页的 IMDb 标题的分页列表:the list

链接有http://www.imdb.com/title/tt0111161/?ref_=adv_li_tt形式的URL

其中 tt0111161 是标题 ID。

我想浏览整个列表,对于每个标题,转到 URL http://www.imdb.com/title/tt0111161/ratings
并从该页面中提取 HTML 信息。如何使用 Scrapy、BeautifulSoup 或任何其他方法做到这一点?

【问题讨论】:

  • 你想从'imdb.com/title/tt0111161/ratings'中得到什么?
  • @PiyushS.Wanare 投票分布。
  • 到目前为止你尝试过什么?您有任何代码可以与您在运行时遇到的问题分享吗?
  • @paultrmbrth 我还不知道从哪里开始,所以我还没有为它写代码。

标签: pagination web-scraping beautifulsoup scrapy scrapy-spider


【解决方案1】:

我试过这种方式:-

from bs4 import BeautifulSoup
import urllib
r = urllib.urlopen('http://www.imdb.com/title/tt0111161/ratings').read()
soup = BeautifulSoup(r)
print soup

注意 - IMDb 不允许您废弃他们的网站。

【讨论】:

  • 好的,可以下载评分页面了,谢谢。但我需要一种方法来获取列表中每个标题的评分页面。该怎么做?
  • 检查 IMdb 是否有任何 API,否则他们有安全性,我们无法废弃。
  • 我确实检查过,他们没有 API,他们只有一堆乱七八糟且难以解析的文本文件,所以这是唯一的方法。 “他们有安全感”是什么意思?
  • 许多网站在开发过程中会保护他们的网页,所以他们在网站上的任何数据都不应该被任何人废弃。
  • 如果我的回答对你有帮助,那么你可以接受并投票。
猜你喜欢
  • 2020-07-30
  • 2017-12-20
  • 2021-06-17
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-05-12
相关资源
最近更新 更多