【发布时间】:2016-03-18 23:03:12
【问题描述】:
我在 BigQuery 中有大约 100GB 的数据,而且我对使用数据分析工具还很陌生。我想为不同的查询获取大约 3000 个提取,使用一系列编程 SQL 查询,然后运行一些统计分析来比较这些提取的峰度。
现在我的工作流程如下:
- 在我的本地计算机上运行,使用 BigQuery Python 客户端 API 获取数据提取并将它们保存在本地
- 在我的本地机器上运行,使用
scipy对提取物运行峰度分析
其中第二个工作正常,但在本地保存所有 3000 个数据提取(网络超时等)非常缓慢和痛苦。
有没有更好的方法来做到这一点?基本上我想知道是否有某种云工具可以让我快速运行调用以获取 3000 次提取,然后运行 Python 进行峰度分析。
我查看了https://cloud.google.com/bigquery/third-party-tools,但我不确定这些是否符合我的需要。
【问题讨论】:
-
我应该说,我不喜欢 BigQuery - 可以切换到其他服务,例如如果这样更合适,请使用 Spark。
-
如果您要投票结束此问题,请您解释原因,并建议我应该在哪里提问?我是真诚地问这个问题,我真的很感激一些帮助,我认为这是一个可供其他人学习的有用问题。
标签: bigdata google-bigquery data-analysis