【问题标题】:General question about ETL solutions for Azure for a small operation有关小型操作的 Azure ETL 解决方案的一般问题
【发布时间】:2020-05-12 09:59:57
【问题描述】:

我们使用数据的方式是从其他组织检索调查数据,或者自己创建调查工具并向我们组织下的组织征求数据。

我们有一个数据库,其中最大的表可能有 1000 万条记录。我们每年提取和上传大部分数据,偶尔需要对来自人口普查、美国社区调查等组织的大量表进行 ETL。我们的数据库都在 Azure 上,目前是我获取数据库的方式来自 Census 平面文件/.csv 文件的方法是将它们重新保存为 Excel 并使用 Excel 导入向导。

在将这些表(使用 Visual Studio)移动到我们的报告数据库之前,ETL 中的所有“T”都发生在我的暂存数据库中的编程过程中。

我应该使用更复杂的技术吗?如果有,它是什么?我在这件事上的所有教育都来自于阅读 Google 和观看 YouTube,因此我对所有不同术语的掌握都缺乏,并且在互联网上搜索 ETL 很难得到我认为应该是一个简单的答案。

有一段时间,我认为我们最终希望最终使用 SSIS,但我了解到 SSIS 主要用于如果您有一个本地数据库。我尝试使用 BULK INSERT 查看动态 SQL,发现 BULK INSERT 不适用于 Azure DB。等等。

最近我一直在学习 Azure 数据工厂和使用 Windows Power Shell 的称为批量复制程序的东西。

对于小型 BI 报告解决方案我应该使用什么技术,有人有什么建议吗?

【问题讨论】:

    标签: azure-sql-database etl


    【解决方案1】:

    我建议你使用Data Factory,它对于大数据传输有很好的性能。

    参考这里:Copy performance and scalability achievable using ADF

    Copy Active支持您使用表数据、查询或存储过程来过滤Source中的数据:

    Sink 支持您选择目标表、存储过程或自动创建表(批量插入)来接收数据:

    Data Factory Mapping Data Flow 为数据转换提供了更多功能。

    参考:Copy and transform data in Azure SQL Database by using Azure Data Factory.

    希望这会有所帮助。

    【讨论】:

      猜你喜欢
      • 2012-02-07
      • 2017-04-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-03-31
      • 2020-09-04
      • 1970-01-01
      • 2011-11-27
      相关资源
      最近更新 更多