【问题标题】:Google Analytics data in AzureAzure 中的 Google Analytics(分析)数据
【发布时间】:2018-02-13 15:09:55
【问题描述】:
有没有人将 Google Analytics 数据迁移到 Azure 中?我已经看到了一些方法来做到这一点,但我不确定我要做什么。谷歌分析数据变得非常大,我想知道它是否最适合将它留在谷歌存储中并从 Azure 访问它,或者将它移动到 HDInsight 或 Data Lake 之类的东西。我需要跨多个不同的数据存储、SQL Azure、Blob 和表存储连接数据。我还在研究 Apache Drill 和 Presto 作为统一数据访问的可能解决方案。只是想看看那里是否有人处理过同样的问题并有任何经验可以分享。谢谢!
【问题讨论】:
标签:
azure
google-analytics
azure-blob-storage
apache-drill
presto
【解决方案1】:
前言
我没有使用 Presto 的经验,所以我只能评论使用 Drill 进行此操作的可行性。另外我没有使用过 Azure 服务,所以我的建议是理论上的。
钻取存储插件
Drill 将允许您对源自不同来源的数据执行任何 SQL 查询,前提是每个数据源都有一个存储插件。存储插件只是 Drill 中的一段代码,它允许您与数据源进行交互。由于您关心的是对 3 个数据源执行查询,因此我们需要确定这 3 个数据源中的每一个是否都有存储插件。
SQL Azure
我假设 SQL Azure 有一个用于 java 的 jdbc 驱动程序。如果是这样,那么可以按照 these instructions 将 Drill 配置为使用 SQL Azure。
Azure Blob
Azure Blob 存储实现了 hadoop 文件系统 API,Drill 使用该 API 从文件系统中读取数据。所以理论上你可以将 hadoop-azure jar 及其依赖项https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-azure/2.7.0 添加到 Drill 的类路径中,并配置 Drill 的 DFS 存储插件以使用它。
此外,Azure Blob 中的数据必须以受支持的文件格式存储,例如:json、parquet、csv 或 hadoop 序列文件。
Azure 表
这看起来像 Microsoft 的自定义 NoSQL 数据库。目前Drill不支持。
结论
通过一些工作,您可以使用 Drill 在 Azure SQL 和 Blob 上查询数据,但不能在 Azure Table 上查询。