【问题标题】:Google Dataflow instance and BigQuery cost considerationsGoogle Dataflow 实例和 BigQuery 成本注意事项
【发布时间】:2019-08-27 02:40:17
【问题描述】:

我打算在谷歌云平台上启动一个数据流实例来运行一些实验。我想熟悉并尝试使用 apache Beam 从 BigQuery 中提取数据,运行一些 ETL 作业(在 python 中)和流式作业,最后将结果存储在 BigQuery 中。

但是,我也担心将我公司的 GCP 账单发送出去。主要的成本考虑是什么,或者有什么方法可以估算成本,所以我没有从老板那里得到任何消息。

任何帮助将不胜感激,谢谢!

【问题讨论】:

标签: google-bigquery google-cloud-dataflow apache-beam


【解决方案1】:

您可以使用calculator 来估算工作的价格。 数据流方面最重要的资源之一是每小时 CPU。要限制 cpu 小时数,您可以在管道中使用选项 maxNumWorkers 设置最大机器数。

您可以在运行数据流作业时设置更多管道选项https://cloud.google.com/dataflow/docs/guides/specifying-exec-params

对于 BQ,您可以使用 calculator 进行类似的估算。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-10-30
    • 2014-08-19
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多