【发布时间】:2015-06-10 09:47:40
【问题描述】:
我在 HDFS 集群上有一个 .xdf 文件,它大约 10 GB,有近 70 列。我想将它读入一个 R 对象,以便我可以执行一些转换和操作。我试着用谷歌搜索它并提出了两个功能:
rxReadXdf
rxXdfToDataFrame
谁能告诉我首选的功能,因为我想读取数据并在集群的每个节点上并行执行转换?
另外,如果我分块读取和执行转换,是否必须合并每个块的输出?
提前感谢您的帮助。
干杯, 阿米特
【问题讨论】:
-
另外,如果我以块的形式读取数据,随着数据大小不断变化,我将如何动态决定块的数量
标签: r hadoop revolution-r