介绍
我们想要一套适合 Spark 开发者的实践,所以我们整理了 Spark 开发的知识内容。在标题Deeply Deep Dive 中,我表达了我对更深入的渴望,因为我从未对以Deep dive 发布的信息感到满意。在创建内容时,我意识到对所需的知识量感到绝望,导致我超越了所谓的完全に理解した。除了绝望,还有乐趣。我们希望本开发指南系列能够帮助您实现这一点。
在阅读本系列指南之前,建议您已经接受过以下培训或具备与培训相当的知识。开发指南系列不提供项目的详细解释,请酌情参考文档和培训内容。请在自己的环境中运行Github上发布的代码,加深理解。
- 火花概述
- 数据工程
- 数据分析
绝望完整开发指南系列文章~Spark版~
下表显示了预期的字段和与之相关的文章。还有相关的侧边栏和存储库。
| 组 ID | 场地 | 文章 |
|---|---|---|
| T10 | Spark 概述 | - 开发 PySpark 时应了解的 7 个主题 |
| T20 | 数据工程 | - 使用 PySpark 进行数据工程实践 |
| T30 | 数据质量检查 | - 使用 PySpark 进行数据质量处理的开发实践 |
| T40 | 数据科学 | 未开始(实施时间未定) |
| T50 | 元数据部署 | - 使用 PySpark 练习元数据部署 |
| T60 | 测试 | - 练习笔记本 Spark 服务的单元测试(Databricks) |
| T70 | 开发运维 | - 在 Notebook Spark 服务中练习 DevOps (Databricks) |
补充文章
- 数据科学
- 构建AI模型时分析平台应保证的可扩展性-启动MLOps/AIOps之前--Qiita
- 元数据部署
- 如何获取 Spark 数据对象的元数据 - Qiita
- 开发运维
- 在仅用于特定目的的 Linux 环境中在 Windows Subsystem for Linux (WSL) 上构建 Databricks Connect (Python) 环境的过程-Qiita
- 使用 Azure DevOps(管道)构建 Databricks CI(持续集成)管道的过程 - Qiita
存储库
Azure DevOps(CI/CD 管道执行环境)
原创声明:本文系作者授权爱码网发表,未经许可,不得转载;
原文地址:https://www.likecs.com/show-308628379.html