【发布时间】:2017-02-14 11:18:21
【问题描述】:
根据日志文件的创建日期,我有日志文件进入不同的目录。
例如
> /mypath/2017/01/20/...
.
.
.
> /mypath/2017/02/13/...
> /mypath/2017/02/14/...
我想使用 pyspark 将所有这些日志文件合并到一个 rdd 中,以便我可以对这个主文件进行聚合。
到目前为止,我已经获取了单独的目录,称为 sqlContext 并使用 Union 来加入特定日期的所有日志文件。
DF1 = (sqlContext.read.schema(schema).json("/mypath/2017/02/13")).union(sqlContext.read.schema(schema).json("/mypath/2017/02/14"))
有没有一种简单的方法可以通过指定日期范围内的日志文件来获取主 rdd? (即从 2017/01/20 到 2017/02/14)
我是新手,如果我在任何步骤中有错误,请纠正我。
【问题讨论】:
-
另外,如果我想在加入所有这些日志(比如 DF1)后基于“类型”列进行过滤。这样做的最佳过程是什么? (我通常使用 DF1.filter())。还有其他有效的方法吗?
-
sqlContext.read.schema(schema).json("/mypath/2017/02/[13-14]")) 不起作用。它说“非法文件模式:索引 4 附近的非法字符范围”
标签: scala apache-spark pyspark pyspark-sql databricks