【发布时间】:2018-04-30 09:24:18
【问题描述】:
我正在使用 Scrapy 从电影院网页收集数据。
使用 XPath 选择器,如果我将选择器与 extract() 方法一起使用,如下所示:
def parse_with_extract(self, response):
div = response.xpath("//div[@class='col-sm-7 col-md-9']/p[@class='movie__option']")
data = i.xpath("text()").extract()
return data
返回:
如果我将选择器与 extract_first() 方法一起使用:
def parse_with_extract_first(self, response):
div = response.xpath("//div[@class='col-sm-7 col-md-9']/p[@class='movie__option']")
storage = []
for i in div:
data = i.xpath("text()").extract_first()
storage.append(data)
return storage
返回:
为什么 extract() 方法返回所有字符,包括 "\xa0",而 extract_first() 方法返回的是空字符串?
【问题讨论】:
-
您能否提供一个指向您要抓取的页面的链接?
-
@StasDeep Here is the link
标签: python web-scraping scrapy