【问题标题】:AWS setup to run python scripts on Apache pyspark envAWS 设置以在 Apache pyspark env 上运行 python 脚本
【发布时间】:2017-12-24 08:02:50
【问题描述】:

需要通过在 pyspark 框架上运行 python 脚本、RDD 对数据集执行数据分析和创建可视化。如果我们可以在 AWS 上而不是在本地机器 (VM) 上执行此操作,请寻求帮助。

我们似乎在 AWS 中使用 EMR 或 EC2 提供了几个选项,但不确定相关的步骤和定价,即使我们在 AWS 中提供了 12 个月的免费试用选项。

谁能帮忙。

【问题讨论】:

    标签: python amazon-web-services pyspark amazon-emr


    【解决方案1】:

    这里有 2 个选项:

    选项1:您可以在AWS上创建自己的实例并设置hadoop集群(根据您的需要单节点或多节点)并在其上运行pyspark。

    选项2:您可以使用亚马逊提供的 EMR(Elastic Map Reduce),它可以为您创建集群环境,您可以在其中运行您的 pyspark 代码。

    选项 1 更便宜,但您需要自己配置所有内容。 选项 2 比选项 1 成本更高,但为您提供现成的环境。

    如果您想使用免费套餐,我建议您选择选项 1。您可以使用亚马逊在线计算器来比较成本。这是在线计算器的链接。 aws online calculator

    【讨论】:

      猜你喜欢
      • 2014-06-11
      • 2014-11-04
      • 2015-02-18
      • 2014-09-13
      • 1970-01-01
      • 2019-02-02
      • 2023-04-09
      • 2020-03-05
      • 2020-12-11
      相关资源
      最近更新 更多