【发布时间】:2016-03-08 04:19:56
【问题描述】:
我想编辑 csv(超过 500MB)文件。 如果我有类似的数据
ID, NUMBER
A, 1
B, 3
C, 4
D, 5
我想添加一些额外的列,例如
ID, NUMBER, DIFF
A, 1, 0
B, 3, 2
C, 4, 1
D, 5, 1
此数据也可以是 ScSla 数据类型。
(in)Orgin Csv 文件 -> (out)(新建 csv 文件,文件数据(RDD 类型?))
第一季度。哪种方式是处理数据的最佳方式?
- 从原始 csv 文件创建一个新的 csv 文件,然后重新打开新的 csv 文件以 scala 数据。
- 先制作新的 scala 数据,并将其制作为 csv 文件。
第二季度。我需要为此使用“数据框”吗?我应该使用哪个库或 API?
【问题讨论】:
标签: scala csv apache-spark