【发布时间】:2017-07-14 16:24:11
【问题描述】:
我有一个字符串的 RDD。每一行对应各种日志。
我在一个函数中有多个正则表达式,它们匹配/大小写 RDD 的行以应用适应的正则表达式。
我想将这个独特的函数映射到我的 RDD 上,这样它就可以快速处理每一行,并将处理过的每一行存储在另一个全局 rdd 中。
问题是,因为我希望这个任务被并行化,我的全局 RDD 必须可以同时访问以添加每个处理的行。
我想知道是否有其他方法可以做到这一点或任何事情!我希望提高我的火花技能。
例如,这就是我想做的:
我有一个像这样的 txt:
错误:哈哈哈 param_error=8 param_err2=https
警告:HUHUHUHUH param_warn=tchu param_warn2=wifi
我的正则表达式函数会将包含“ERROR”的行与一个数组匹配,例如Array("Error","8","https")
另一个正则表达式函数会将包含“警告”的行与一个数组匹配,例如Array("Warning","tchu","wifi")
最后,我想为处理的每一行获取一个RDD[Array[String]]。
如何使其与 Spark 保持并行?
【问题讨论】:
-
“我在一个函数中有多个正则表达式,它们匹配/大小写 RDD 的行以应用适应的正则表达式” - 您可以编辑您的帖子以包含 签名这个功能?
标签: scala apache-spark