作为一款致力于成为数字化企业「最强大脑」的服务,Azure Synapse Analysis高效高弹性的架构设计、简单易用的操作、强大的功能和澎湃的数据处理和分析能力,能够帮助我们解决与数据准备、数据管理、数据仓库、大数据和AI等方面有关的很多挑战。

我们将通过《数据“科学家”必读》系列文章带领大家全面体验Azure Synapse Analysis。本系列共分为六期内容,本篇是其中的最后一期

  1. 第一次亲密接触:开箱初体验,概括了解Azure Synapse Analysis的功能与价值

  2. 围绕Cosmos DB自行DIY的Azure Synapse Analysis解决方案

  3. Azure Synapse Analysis与Azure Function服务的配合使用

  4. 通过增量数据CDC对Azure Synapse Analysis中的数据进行更新

  5. 借助Azure Data Factory工具实现数据处理水线的自动化操作

  6. 借助Synapse Link的一键同步省略ETL过程,实现最新数据的直接访问

《数据“科学家”必读》 | (终结篇)省略中间环节,实现数据的直接访问

在上一期内容中,我们已经介绍了如何通过Data Factory工具将整个数据水线自动化。至此,我们已经可以通过Azure Synapse Analysis服务的内置的ETL能力,实现了上游Cosmos DB内的Transaction数据的增量数据(CDC)推送至下游的数据仓库内。通过Azure Synapse Analysis类似的方式,我们可以针对不同上游数据系统CDC数据与下游系统同步。整个数据路径中我们需要提取,转换,再到加载更新到数据仓库。

但实际上,Azure Synapse Analysis目前对Cosmos DB提供了更加简洁的解决方案:Synapse Link。通过Synapse Link可实现一键同步,上述数据路径只需要简单在产品上一键打开开关即可。

Synapse Link将Cosmos DB内的实时数据直接暴露给Azure Synapse Analysis进行消费,简化了中间进行CDC/ETL的过程。目前Synapse Link只支持Cosmos DB SQL引擎,未来会对更多数据库产品进行支持。

那么本期,我们终于开始要看看下列架构图中所示的“Path 1”是如何实现的了!

《数据“科学家”必读》 | (终结篇)省略中间环节,实现数据的直接访问

具体操作步骤如下:

1. 在Azure Cosmos DB中打开Synapse Link功能。

《数据“科学家”必读》 | (终结篇)省略中间环节,实现数据的直接访问

2. 创建Cosmos Container并开启Analysis Store能力。

《数据“科学家”必读》 | (终结篇)省略中间环节,实现数据的直接访问

3. 在Azure Synapse Analysis中创建Cosmos数据源,登入Azure Synapse Studio,选择Data -> Connect to external data -> Azure Cosmos DB。

《数据“科学家”必读》 | (终结篇)省略中间环节,实现数据的直接访问

4. 在Azure Synapse中使用Notebooks访问Cosmos DB中的数据。需要注意目前Cosmos Synapse Link为预览版,暂时只支持通过Spark引擎进行数据访问,后续会支持T-SQL引擎。

《数据“科学家”必读》 | (终结篇)省略中间环节,实现数据的直接访问

5. 通过前面的数据仿真程序代码,添加或更新数据,再次通过Azure Synapse Analysis进行访问,验证数据实时性。

从上面的操作可以看出,整个过程非常简单,数据的访问过程开箱即用。后续Synapse Link可以更广泛的支持主流的数据产品,还是非常值得期待的。

本系列文章到此结束,希望能帮助大家对Azure Synapse Analysis获得初步了解,让Azure Synapse Analysis助力企业在数字化转型之路上越跑越快。

相关文章:

  • 2021-04-23
  • 2021-12-27
  • 2021-04-16
  • 2021-08-28
  • 2021-08-06
  • 2021-11-28
猜你喜欢
  • 2021-12-13
  • 2021-06-14
  • 2022-01-18
  • 2021-04-04
  • 2021-05-28
  • 2021-08-18
  • 2021-07-13
相关资源
相似解决方案