【问题标题】:Tools for running analysis on data held in BigQuery?用于对 BigQuery 中保存的数据进行分析的工具?
【发布时间】:2016-03-18 23:03:12
【问题描述】:

我在 BigQuery 中有大约 100GB 的数据,而且我对使用数据分析工具还很陌生。我想为不同的查询获取大约 3000 个提取,使用一系列编程 SQL 查询,然后运行一些统计分析来比较这些提取的峰度。

现在我的工作流程如下:

  • 在我的本地计算机上运行,​​使用 BigQuery Python 客户端 API 获取数据提取并将它们保存在本地
  • 在我的本地机器上运行,使用scipy 对提取物运行峰度分析

其中第二个工作正常,但在本地保存所有 3000 个数据提取(网络超时等)非常缓慢和痛苦。

有没有更好的方法来做到这一点?基本上我想知道是否有某种云工具可以让我快速运行调用以获取 3000 次提取,然后运行 ​​Python 进行峰度分析。

我查看了https://cloud.google.com/bigquery/third-party-tools,但我不确定这些是否符合我的需要。

【问题讨论】:

  • 我应该说,我不喜欢 BigQuery - 可以切换到其他服务,例如如果这样更合适,请使用 Spark。
  • 如果您要投票结束此问题,请您解释原因,并建议我应该在哪里提问?我是真诚地问这个问题,我真的很感激一些帮助,我认为这是一个可供其他人学习的有用问题。

标签: bigdata google-bigquery data-analysis


【解决方案1】:

到目前为止,Cloud Datalab 是您的最佳选择
https://cloud.google.com/datalab/
它处于测试阶段,因此可能会有一些惊喜
Datalab 建立在以下 (Jupyter/IPython) 选项之上,完全在云中

另一个选择是 Jupyter/IPython Notebook
http://jupyter-notebook-beginner-guide.readthedocs.org/en/latest/

我们的数据科学团队很久以前就开始使用第二个选项并取得了巨大的成功,现在正朝着 Datalab 迈进

但是,对于其他业务(产品、业务、运营、销售、营销等),我们必须构建自己的工作流/编排工具,因为没有发现任何好的或足够相关的工具。

【讨论】:

  • 谢谢,很有帮助。
【解决方案2】:

两种简单的方法:

1:如果您的问题是您所说的网络问题,请使用谷歌计算引擎机器进行分析,与您的 bigquery 表(美国、欧盟等)位于同一区域。从 bigquery 获取数据不会有网络问题,而且速度非常快。 这台机器只会在您使用它的几分钟内花费您。保存您机器的快照,以便随时重复使用机器设置(快照也有每月费用,但比启动机器要低得多。)

2:使用支持 bigquery 源的 Google Cloud Datalab(2015 年 12 月测试版),并为您提供进行分析所需的所有工具,然后与他人分享: https://cloud.google.com/datalab/

来自他们的文档:“Cloud Datalab 建立在 Jupyter(前身为 IPython)之上,它拥有蓬勃发展的模块生态系统和强大的知识库。Cloud Datalab 支持在 Google BigQuery、Google Compute Engine 和 Google Cloud 上分析您的数据使用 Python、SQL 和 JavaScript 进行存储(用于 BigQuery 用户定义的函数)。”

【讨论】:

    【解决方案3】:

    您可以查看Cooladata

    它允许您将 BQ 表作为外部数据源进行查询。 您可以做的是安排您的查询并将结果导出到 Google 存储,您可以从那里获取,或者使用内置的强大报告工具来回答您的 3000 个查询。 它还将为您提供业务所需的所有 BI 工具。

    【讨论】:

      猜你喜欢
      • 2012-10-26
      • 2010-12-15
      • 1970-01-01
      • 1970-01-01
      • 2020-02-13
      • 1970-01-01
      • 2012-08-17
      • 2020-01-13
      • 2011-07-08
      相关资源
      最近更新 更多