【问题标题】:AWS setup to run python scripts on Apache pyspark envAWS 设置以在 Apache pyspark env 上运行 python 脚本
【发布时间】:2017-12-24 08:02:50
【问题描述】:
需要通过在 pyspark 框架上运行 python 脚本、RDD 对数据集执行数据分析和创建可视化。如果我们可以在 AWS 上而不是在本地机器 (VM) 上执行此操作,请寻求帮助。
我们似乎在 AWS 中使用 EMR 或 EC2 提供了几个选项,但不确定相关的步骤和定价,即使我们在 AWS 中提供了 12 个月的免费试用选项。
谁能帮忙。
【问题讨论】:
标签:
python
amazon-web-services
pyspark
amazon-emr
【解决方案1】:
这里有 2 个选项:
选项1:您可以在AWS上创建自己的实例并设置hadoop集群(根据您的需要单节点或多节点)并在其上运行pyspark。
选项2:您可以使用亚马逊提供的 EMR(Elastic Map Reduce),它可以为您创建集群环境,您可以在其中运行您的 pyspark 代码。
选项 1 更便宜,但您需要自己配置所有内容。
选项 2 比选项 1 成本更高,但为您提供现成的环境。
如果您想使用免费套餐,我建议您选择选项 1。您可以使用亚马逊在线计算器来比较成本。这是在线计算器的链接。
aws online calculator