Spark开发的绝望完整开发指南系列～Deep Deep Dive into Spark～

介绍

我们想要一套适合 Spark 开发者的实践，所以我们整理了 Spark 开发的知识内容。在标题Deeply Deep Dive 中，我表达了我对更深入的渴望，因为我从未对以Deep dive 发布的信息感到满意。在创建内容时，我意识到对所需的知识量感到绝望，导致我超越了所谓的完全に理解した。除了绝望，还有乐趣。我们希望本开发指南系列能够帮助您实现这一点。

在阅读本系列指南之前，建议您已经接受过以下培训或具备与培训相当的知识。开发指南系列不提供项目的详细解释，请酌情参考文档和培训内容。请在自己的环境中运行Github上发布的代码，加深理解。

火花概述
- 英文
  - apache-spark-programming-with-databricks GitHub
数据工程
- 英文
  - 数据工程与databricks GitHub
  - 高级数据工程与databricks GitHub
- 日语
  - 数据工程与databricks-japanese GitHub
数据分析
- 英文
  - 可扩展机器学习与 apache-spark GitHub
  - 生产中的机器学习 GitHub

绝望完整开发指南系列文章~Spark版~

下表显示了预期的字段和与之相关的文章。还有相关的侧边栏和存储库。

组 ID	场地	文章
T10	Spark 概述	- 开发 PySpark 时应了解的 7 个主题
T20	数据工程	- 使用 PySpark 进行数据工程实践
T30	数据质量检查	- 使用 PySpark 进行数据质量处理的开发实践
T40	数据科学	未开始（实施时间未定）
T50	元数据部署	- 使用 PySpark 练习元数据部署
T60	测试	- 练习笔记本 Spark 服务的单元测试（Databricks）
T70	开发运维	- 在 Notebook Spark 服务中练习 DevOps (Databricks)

补充文章

数据科学
- 构建AI模型时分析平台应保证的可扩展性-启动MLOps/AIOps之前--Qiita
元数据部署
- 如何获取 Spark 数据对象的元数据 - Qiita
开发运维
- 在仅用于特定目的的 Linux 环境中在 Windows Subsystem for Linux (WSL) 上构建 Databricks Connect (Python) 环境的过程-Qiita
- 使用 Azure DevOps（管道）构建 Databricks CI（持续集成）管道的过程 - Qiita

存储库

databricks_development_practices (github.com)

Azure DevOps（CI/CD 管道执行环境）

Azure Pipelines 中的发布环境

原创声明：本文系作者授权爱码网发表，未经许可，不得转载;

原文地址：https://www.likecs.com/show-308628379.html