在项目中,我们将利用Spark对省钱快淘网站上的商品进行离线和在线分析。本文中用到的技术有Scrapy爬虫+ Kafka + MongoDB + Spark Streaming + Spark MLlib + Spark SQL.接下来我们将结合具体代码进行分析。
获取数据
在本项目中我们主要使用省钱快淘上各种商品宝贝作为数据集来源。我们首先需要使用Scrapy对网站中的商品进行抓取,我们主要抓取的内容为:商品名称、掌柜、店铺类型、宝贝简介。具体体现在网站上如下图所示:
相关文章:
在项目中,我们将利用Spark对省钱快淘网站上的商品进行离线和在线分析。本文中用到的技术有Scrapy爬虫+ Kafka + MongoDB + Spark Streaming + Spark MLlib + Spark SQL.接下来我们将结合具体代码进行分析。
获取数据
在本项目中我们主要使用省钱快淘上各种商品宝贝作为数据集来源。我们首先需要使用Scrapy对网站中的商品进行抓取,我们主要抓取的内容为:商品名称、掌柜、店铺类型、宝贝简介。具体体现在网站上如下图所示:
相关文章: