【发布时间】:2017-02-07 08:05:18
【问题描述】:
我想从 Amazon EMR 中的 Spark 集群设置访问 Azure blob 存储中的大量数据(约 20 TB)。做这个的最好方式是什么?将此数据传输到 S3 是唯一的选择吗?如果是,将这些数据传输到 S3 的最便宜的方法是什么?
谢谢!
【问题讨论】:
标签: apache-spark amazon-s3 azure-blob-storage amazon-emr
我想从 Amazon EMR 中的 Spark 集群设置访问 Azure blob 存储中的大量数据(约 20 TB)。做这个的最好方式是什么?将此数据传输到 S3 是唯一的选择吗?如果是,将这些数据传输到 S3 的最便宜的方法是什么?
谢谢!
【问题讨论】:
标签: apache-spark amazon-s3 azure-blob-storage amazon-emr
根据您的描述,您有大约 20TB 的数据要传输到 Amazon S3。我对亚马逊不熟悉。但在 Azure 中,我们将收取数据传输费用。这是pricing site。例如,您需要每 GB 0.08 美元。 20*1024*0.08= 1638.4 美元。这非常贵。我建议您考虑其他方法。如果您根本不在乎钱,请尝试在 google 中搜索工具或编写您自己的代码来传输这些数据。
【讨论】: