【发布时间】:2013-07-15 14:19:39
【问题描述】:
在 Spark 中,可以设置一些 hadoop 配置设置,例如,例如
System.setProperty("spark.hadoop.dfs.replication", "1")
这可行,复制因子设置为 1。 假设是这种情况,我认为这种模式(将“spark.hadoop.”添加到常规 hadoop 配置属性中)也适用于 textinputformat.record.delimiter:
System.setProperty("spark.hadoop.textinputformat.record.delimiter", "\n\n")
但是,spark 似乎只是忽略了此设置。
我是否以正确的方式设置textinputformat.record.delimiter?
有没有更简单的方法来设置textinputformat.record.delimiter。我想避免自己写InputFormat,因为我真的只需要获取由两个换行符分隔的记录。
【问题讨论】:
-
你用的是什么版本的hadoop?
-
我正在使用带有 Hadoop 1 / CDH3 的 spark-0.7.2 的预构建版本(请参阅 here)。我很确定它实际上是用 hadoop 1.0.4 构建的
-
我不确定它是否在那个版本的 hadoop 中,您可能需要将自己重新编译为支持您想要的版本:issues.apache.org/jira/browse/HADOOP-7096
标签: scala hadoop mapreduce apache-spark