Spark 官方文档概览3.0.1

背景

  1. 官方文档地址
    https://spark.apache.org/docs/latest/
    Spark 官方文档概览3.0.1

1. 概览

Spark 官方文档概览3.0.1

2. 安全

Spark 官方文档概览3.0.1
spark默认安全功能是关闭的,因为安全特性会对数据传输,数据访问等做更多校验,一定程度影响性能和使用便捷性。
一般spark集群部署时会设置一台堡垒机,spark集群之间安全性设置会弱化,但堡垒机的安全特性会提升到最高。这样可以兼顾安全性和集群的使用便捷性。

3. 下载

Spark 官方文档概览3.0.1
这里注意,java版本最好使用java8。这也是目前企业开发中主流的java版本

4. 运行案例程序和Shell客户端

Spark 官方文档概览3.0.1

5. 在集群上启动Spark

Spark 官方文档概览3.0.1

6. Spark使用引导

6.1 编程指南

Spark 官方文档概览3.0.1

  1. 快速上手指南
  2. RDD编程指南
  3. spark sql,datasets,dataframes使用
  4. 结构化stream流数据
  5. spark streaming,流式数据处理
  6. mlib,机器学习
  7. graphx,图数据处理

6.2 API文档

Spark 官方文档概览3.0.1

  1. spark scala文档(spark大部分代码是scala代码,少部分是java代码)
  2. spark java文档
  3. python文档
  4. R语言文档
  5. Spark sql,内置函数文档

6.3 部署指南

Spark 官方文档概览3.0.1

  1. 集群概览
  2. 提交spark应用
  3. 部署方式
  • amazon ec2,类似阿里云
  • standalone 模式(spark自带的资源调度和任务管理平台)
  • mesos(一个开源的apache资源调度和管理平台)
  • yarn(hadoop中的资源管理和任务调度平台)
  • kebernates(容器化平台,spark可以运行在容器中)

6.4 其他文档

Spark 官方文档概览3.0.1

  1. spark配置
  2. spark监控
  3. 优化指南
  4. job调度(一个spark spplicaiton可能会有多个job)
  5. 安全
  6. 硬件配置指南
  7. 集成其他存储系统
  8. 迁移指南
  9. 构建spark
  10. 为spark贡献代码
  11. 第三方项目

6.5 外部资源

Spark 官方文档概览3.0.1

  1. spark官网
  2. spark社区
  3. stackoverflow的问题清单
  4. spark提问清单
  5. AMP camp训练营,免费的视频等资料
  6. 案例代码

相关文章: