【发布时间】:2016-11-18 23:12:07
【问题描述】:
尝试关注此 github 页面以学习在 facebook 中抓取嵌套 div。 https://github.com/talhashraf/major-scrapy-spiders/blob/master/mss/spiders/facebook_profile.py
文件中的parse_info_text_only 或parse_info_has_image 可以正常获取跨度信息
我有一个类似的页面,我试图从嵌套的 div 中获取 result_id,但是 result_id 在 div 本身中。
据我了解,我试图 scrape 的 div 位于第二行,所以我尝试类似
def parse_profile(self, response):
item["BrowseResultsContainer"] = self.parse_info_has_id(response.css('#BrowseResultsContainer'))
return item
def parse_info_has_id(self, css_path):
text = css_path.xpath('div/div').extract()
text = [t.strip() for t in text]
text = [t for t in text if re.search('result_id', t)]
return "\n".join(text)
如何从嵌套 div 上方获取 data-xt?
【问题讨论】:
标签: html parsing scrapy web-crawler