【发布时间】:2018-09-01 04:01:13
【问题描述】:
我正在尝试根据前两个字节中定义的不同记录类型的输入文件创建不同的 RDD
输入文件有
00~08-30-2018~001
01~Amwell~000048.00~by~0000~test
02~002~145~West ~23.78
99~001~004
如何根据前 2 个字节创建 RDD?
【问题讨论】:
-
前 2 个字节是什么意思?你可以解释吗?如果可能的话,你能分享一下预期的输出吗?
-
输入文件包含以下数据:第 1 行有 01~08-30-2018~001 第 2 行有 01~Amwell~000048.00~by~0000~test 第 3 行有 02~002~145 ~West ~23.78 99~001~004 所有以01开头的记录我要放入一个RDD,所有以02开头的记录我要放入另一个RDD。
标签: apache-spark rdd