在项目中,我们将利用Spark对省钱快淘网站上的商品进行离线和在线分析。本文中用到的技术有Scrapy爬虫+ Kafka + MongoDB + Spark Streaming + Spark MLlib + Spark SQL.接下来我们将结合具体代码进行分析。
获取数据
在本项目中我们主要使用省钱快淘上各种商品宝贝作为数据集来源。我们首先需要使用Scrapy对网站中的商品进行抓取,我们主要抓取的内容为:商品名称、掌柜、店铺类型、宝贝简介。具体体现在网站上如下图所示:
基于热销商品宝贝的数据调用分析

相关文章:

  • 2021-05-10
  • 2021-12-30
  • 2021-09-06
  • 2021-11-22
  • 2022-12-23
  • 2022-12-23
  • 2022-12-23
  • 2022-01-08
猜你喜欢
  • 2021-11-27
  • 2021-06-04
  • 2021-12-17
  • 2021-08-11
  • 2021-11-16
  • 2022-02-27
  • 2022-12-23
相关资源
相似解决方案