【问题标题】:Necessity of Azure blob storageAzure blob 存储的必要性
【发布时间】:2019-11-09 13:40:41
【问题描述】:
谁能帮助我了解 Azure blob 或 Datalake 存储的必要性。
我浏览了微软的一些博客,说要以 csv 文件的形式从源系统中提取增量数据并将它们存储在 blob 或 datalakestore 中,并且应将 blob/datalake 存储中的数据推送到 azure DWH 阶段,然后再推送到数据集市。
我很困惑为什么需要生成 csv 并使用 Azure Blob。因为我们可以直接拉取增量数据并加载到 Azure DWH 阶段。
【问题讨论】:
标签:
azure-sql-database
azure-blob-storage
azure-pipelines
【解决方案1】:
你不必做任何你不想做的事情;)。很难准确地说出您没有发布博客链接,但通常有一种趋势(意味着很多,但不一定每个人都这样做)首先将原始遥测类数据放入廉价存储中,然后“烹饪” /“擦洗”它到更高价值的数据存储中(这也可能花费更多)。 SQL DW 中还使用了 gen2 存储模型来提高存储数据的价格/性能(它为您存储压缩在 blob 存储中的东西)。所有这些的关键驱动因素是成本与数据的价值实现时间。如果您的问题空间可以通过直接在 SQL DW 或 Azure 中的类似方式中登陆数据来正常工作,那么欢迎您这样做。如果你的数据量很大你不想全部放在 SQL DW 中(出于成本或管理原因),那么先使用存储的模型可能对你有利。我希望这可以为您提供更多详细信息,以帮助您做出设计决策