Day13:带你走进大数据

 

Hadoop和大数据是这两年最火的词儿们之一,越来越多的公司对这个东西感兴趣,但是我接触到的大多数公司里的人,无论是技术人员还是老板。都不知道怎么能把这些东西用于改善自己公司的业务。在解答的过程中,提炼出几个要点,记录一下

 

Day13:带你走进大数据

 

随着计算机网络的告诉发展,我们的生活离不开网络,手机购物,看直播,看小说,智能家居,ETC等,这些技术影响着我们的生活,在这些技术方便我们的生活的同事,这些应用也记录这个我们的行为,这些行为数据是海量的,为了合理利用这些海量数据,大数据技术出现了。

 

1 互金领域-广告投放

项目介绍:构建广告投放平台,进行广告投放业务,吸引潜在客户,推广产品,包含投放微服务平台、竞价模块、客户群体画像、 千人千面推荐产品。

2 电商平台

项目介绍: 埋点业务,进行用户细分画像、建立信用体系、进行线上各类活动。

3 共享单车

项目介绍: 依据用户行为轨迹构成出行规律,根据用户群体出行规律、区域情况等动态调度用车情况。

4 工业大数据

项目介绍:国家电网_省级输/变电监控项目:监控线路的传感设备,确保设备安全、降低故障成本,动态监控线路、变电站二次设备工作情况、报警自动化。

5 交通

项目介绍:贵州交通厅,交通离线/实时监控项目:通过交通卡口采集实时数据,动态监控全省各道路通行和事故状况,避免拥堵、避免交通事故、 精准测速、防止套牌和提供便捷最佳出行方案、 预测拥堵系数,为各级提供最优道路规划方案。

6 旅游

项目介绍:安顺智慧旅游,整合各类旅游相关应用系统及信息资源,在公安、交通、工商等相关领域实现信息共享、协同合作,共同打造良性的旅游云生态系统。

7 医疗

项目介绍:某市人民医院,随着老年化的持续增加,患病率越来越高。增加大数据平台,采集医疗相关数据,提高诊断的准确性,预防一些疾病的发生,监控相关病情康复进展,真正实现解决看病难,降低发病率等。

 

大数据技术分为实时计算和离线计算两种

实时计算:就是一条管道,在流动的过程中进行业务处理。

离线就散:就散一个仓库,我们对仓库的数据进行业务处理。

 

  1. Hadoop 生态圈

Hadoop生态圈是我们大数据计算最主要最常用的计算组件。

Hadoop生态体系中,HDFS提供文件存储,YARN提供资源管理,在此基础上,进行各种处理,包括mapreduce、Tez、Sprak、Storm等计算。

 

Day13:带你走进大数据

  1. Hadoop 的三大组件

Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起。

 

(1)HDFS集群:负责海量数据的存储。

 

(2)YARN集群:负责海量数据运算时的资源调度。

 

(3)MapReduce:它其实是一个应用程序开发包。

 

  1. 环境的搭建

自己搭建大数据环境是件繁琐而且耗时的工作,个人不是很推荐上来先搭建环境,对应很多人来说,可能2个星期过去了,还是没有搭建成功,网上有很多很好的解决方案,我们直接使用就可以了

  1. Cloudera(CDH)

CDH(Clouder's Distribution Including Apache hadoop),基于web的用户界面,支持大多数Hadoop组件,包括HDFS、MapReduce、Hive、pig、Hbase、Zookeeper、Sqoop,简化了大数据平台的安装和使用难度。

 

因为直接安装相对还是有些难度,新手推荐直接使用docker,运行别人已经搭建好的docker镜像,直接运行就可以使用。

 

Day13:带你走进大数据

  1. 阿里巴巴 EMR

EMR是阿里云提供的大数据平台,直接购买就可以使用

Day13:带你走进大数据

 

  1. 常用框架入门了解

离线计算框架Hadoop(MapReduce)

两阶段提交,map 第一层逻辑处理, Reduce 汇总后第二次逻辑处理。

Day13:带你走进大数据

实时计算框架 spark

创建一个RDD相当于一段处理逻辑,SprarkContext 将所用用到的逻辑关系打成一个包,TaskScheduler会将这段逻辑包的逻辑分配个不同的机器去执行。

Day13:带你走进大数据

实时计算框架Flink

为了解决离线计算使用hadoop,实时计算使用spark,最终推出了新的框架flink,一个既可以实时,也可以离线。

DataSet API, 对静态数据进行批处理操作

DataStream API,对数据流进行流处理操作

Day13:带你走进大数据

 

喜欢点下关注,你的关注是我写作的最大支持

 

Day13:带你走进大数据

相关文章:

  • 2021-05-03
  • 2021-04-30
  • 2021-09-12
  • 2021-04-26
  • 2021-12-25
  • 2021-07-01
猜你喜欢
  • 2021-11-30
  • 2021-04-30
  • 2022-01-10
  • 2021-04-26
  • 2021-05-08
  • 2021-08-25
  • 2022-01-14
相关资源
相似解决方案