【发布时间】:2015-01-13 02:40:41
【问题描述】:
我正在尝试从包含许多子目录的目录中读取文件。数据在 S3 中,我正在尝试这样做:
val rdd =sc.newAPIHadoopFile(data_loc,
classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
classOf[org.apache.hadoop.mapreduce.lib.input.TextInputFormat],
classOf[org.apache.hadoop.io.NullWritable])
这似乎不起作用。
感谢帮助
【问题讨论】:
-
你试过只用
textFile("s3n://<root_dir>/*")吗? -
是的,我试过了,不行
-
请发布一个目录如何嵌套的示例。可能有一个涉及简单通配符的解决方案,例如:
s3n://bucket/*/*/*。 -
是的,谢谢。
s3n://bucket/root_dir/*/*/*表示年、月、日。但是这样的工作是否有效:s3n://bucket/root_dir/*/data/*/*/*基本上是每个子目录中的一个目录?
标签: scala hadoop apache-spark