Spark 官方文档概览3.0.1
背景
- 官方文档地址
https://spark.apache.org/docs/latest/
1. 概览
2. 安全
spark默认安全功能是关闭的,因为安全特性会对数据传输,数据访问等做更多校验,一定程度影响性能和使用便捷性。
一般spark集群部署时会设置一台堡垒机,spark集群之间安全性设置会弱化,但堡垒机的安全特性会提升到最高。这样可以兼顾安全性和集群的使用便捷性。
3. 下载
这里注意,java版本最好使用java8。这也是目前企业开发中主流的java版本
4. 运行案例程序和Shell客户端
5. 在集群上启动Spark
6. Spark使用引导
6.1 编程指南
- 快速上手指南
- RDD编程指南
- spark sql,datasets,dataframes使用
- 结构化stream流数据
- spark streaming,流式数据处理
- mlib,机器学习
- graphx,图数据处理
6.2 API文档
- spark scala文档(spark大部分代码是scala代码,少部分是java代码)
- spark java文档
- python文档
- R语言文档
- Spark sql,内置函数文档
6.3 部署指南
- 集群概览
- 提交spark应用
- 部署方式
- amazon ec2,类似阿里云
- standalone 模式(spark自带的资源调度和任务管理平台)
- mesos(一个开源的apache资源调度和管理平台)
- yarn(hadoop中的资源管理和任务调度平台)
- kebernates(容器化平台,spark可以运行在容器中)
6.4 其他文档
- spark配置
- spark监控
- 优化指南
- job调度(一个spark spplicaiton可能会有多个job)
- 安全
- 硬件配置指南
- 集成其他存储系统
- 迁移指南
- 构建spark
- 为spark贡献代码
- 第三方项目
6.5 外部资源
- spark官网
- spark社区
- stackoverflow的问题清单
- spark提问清单
- AMP camp训练营,免费的视频等资料
- 案例代码