【发布时间】:2017-11-28 14:33:05
【问题描述】:
我正在从 HDFS 目录中读取多个文件,并且对于每个文件,生成的数据都使用以下命令打印:
frequencies.foreach(x => println(x._1 + ": "+x._2))
而打印出来的数据是(对于File1.txt):
'text': 45
'data': 100
'push': 150
其他文件的密钥可以不同,例如 (File2.txt):
'data': 45
'lea': 100
'jmp': 150
密钥不一定在所有文件中都相同。我希望将所有文件数据写入 .csv 文件,格式如下:
Filename text data push lea jmp
File1.txt 45 100 150 0 0
File2.txt 0 45 0 100 150 ....
有人可以帮我找到解决这个问题的方法吗?
【问题讨论】:
标签: scala csv hadoop apache-spark