这几年在国内的发展,基本上企业对于技术开发人员的要求,都开始与大数据接轨。那么学大数据需要学哪些内容,今天为大家做个简单介绍。从就业的角度来考量,那么自然是市场要求什么,就学什么。市场主流的大数据技术栈。
大数据发展速度很快,对技术的需求也在不断更新迭代,从第一代的Hadoop为王,到现在的Hadoop、Spark、Storm、Flink百花齐放,一方面是因为需求的变化,另一方面也是技术生态在不断拓展和完善。大数据处理的流程,从数据获取、到存储、计算、分析、展现等各个环节,都需要专业的技术支持,对应到不同的岗位,各个岗位共同组成一个完整的数据团队。
大数据开发工程师
工作内容:主要是基于Hadoop、Spark等平台上面进行开发,各种开源技术框架平台很多,需要看企业实际的选择是什么,但目前Hadoop、Spark仍然占据广大市场。
岗位要求:精通Java技术知识,熟悉Spark、kafka、Hive、HBase、zookeeper、HDFS、MR等应用设计及开发。
数据存储层
主要由分布式文件系统(面向文件存储)和分布式数据库(面向行/列的存储)构成。
HDFS:Hadoop分布式文件系统。
Hbase:构建在HDFS之上的分布式数据库。
Kudu:介于HDFS和HBase之间的基于列式存储的分布式数据库。
数据分析师
工作内容:收集,处理和执行统计数据分析;运用工具,提取、分析、呈现数据,实现数据的商业意义,需要业务理解和工具应用能力。
岗位要求:掌握专业数据分析工具和数据分析方法。
数据分析层
主要为方便用户解决大数据问题而提供的各种数据分析工具。
Hive/Pig/SparkSQL:在计算引擎之上构建的支撑SQL或者脚本语言的分析系统,大大降低了用户进行大数据分析的门槛。
数据架构师
工作内容:平台选择,技术架构设计,应用设计和开发,测试和部署;需要平台级开发和架构设计能力。
举例(Hadoop方向架构师):懂Hadoop生态圈,基本上所有的产品都得熟悉,要懂得性能调优,能够结合业务选择合适的产品。