【发布时间】:2015-12-31 05:38:02
【问题描述】:
我知道您可以下载 Spark 源代码 (1.5.1),或为各种 Hadoop 版本预构建的二进制文件。截至 2015 年 10 月,Spark 网页 http://spark.apache.org/downloads.html 已针对 Hadoop 2.6+、2.4+、2.3 和 1.X 预构建二进制文件。
我不确定要下载哪个版本。
我想使用 AWS 机器以独立模式运行 Spark 集群。
<EDIT>
我将运行 24/7 的流式处理。我的数据将来自 Kafka 流。我考虑过使用 spark-ec2,但由于我已经拥有持久的 ec2 机器,我想我不妨使用它们。
我的理解是,由于我的持久工作人员需要执行checkpoint(),因此它需要能够访问某种与主节点共享的文件系统。 S3 似乎是一个合乎逻辑的选择。</EDIT>
这意味着我需要访问 S3,而不是 hdfs。我没有安装 Hadoop。
我为 Hadoop 2.6 预构建了 Spark。我可以在本地模式下运行它,例如 wordcount 示例。但是,每当我启动它时,我都会收到此消息
WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
这是个问题吗?我需要hadoop吗?
<EDIT>
这不是一个阻碍,但我想确保我了解此警告消息的原因。我假设 Spark 不需要 Hadoop,那么它为什么会出现呢?
</EDIT>
【问题讨论】:
标签: hadoop amazon-web-services amazon-s3 apache-spark