【发布时间】:2020-01-21 21:47:53
【问题描述】:
我想从数据收集开始做一个关于情绪分析的端到端项目。为此,我从 IMDB 评论开始,特别是从这个页面开始:
http://www.imdb.com/title/tt2137109/reviews?start=0
我将为此使用scrapy,从以下代码中我可以获得评论和标题:
import requests
from scrapy.http import TextResponse
import urlparse
from urlparse import urljoin
base_url = "http://www.imdb.com/title/tt2137109/reviews?start=0"
r = requests.get(base_url)
response = TextResponse(r.url, body=r.text, encoding='utf-8')
title = response.xpath('//*[contains(@id,"title")]//text()').re('".+"')[0]
reviews = response.xpath('//*[contains(@id,"1")]/p/text()').extract()
我遇到的问题是如何抓取网站以获取随机样本? 我正在寻找 10k 标题的样本,我计划在 5 到 10 天内获得这些标题,以避免不必要地访问该网站并被禁止。
有一些起点比如前250名list: 但我正在寻找一个随机样本。
【问题讨论】:
-
1) 如果你使用scrapy,你为什么使用请求? 2)提取链接并使用随机函数进行随机样本
-
1) 我正在使用请求,因为我正在笔记本上尝试 xpath。我可以从哪里获取随机样本?我没有清单。
-
你试过datasets.imdbws.com吗?
标签: web-scraping scrapy dataset web-crawler sentiment-analysis