【发布时间】:2017-06-26 00:17:56
【问题描述】:
我有一个大约 17 页的 IMDb 标题的分页列表:the list
链接有http://www.imdb.com/title/tt0111161/?ref_=adv_li_tt形式的URL
其中 tt0111161 是标题 ID。
我想浏览整个列表,对于每个标题,转到 URL http://www.imdb.com/title/tt0111161/ratings
并从该页面中提取 HTML 信息。如何使用 Scrapy、BeautifulSoup 或任何其他方法做到这一点?
【问题讨论】:
-
你想从'imdb.com/title/tt0111161/ratings'中得到什么?
-
@PiyushS.Wanare 投票分布。
-
到目前为止你尝试过什么?您有任何代码可以与您在运行时遇到的问题分享吗?
-
@paultrmbrth 我还不知道从哪里开始,所以我还没有为它写代码。
标签: pagination web-scraping beautifulsoup scrapy scrapy-spider