【发布时间】:2015-09-03 17:25:19
【问题描述】:
我需要从二进制文件中读取数据。这些文件很小,大约为1 MB,因此使用binaryFiles() 并逐个文件处理它们可能效率不高(开销太大)。
我可以将它们合并到一个大文件中,然后使用binaryRecords(),但是记录大小只有512 bytes,所以我想将几条记录连接在一起,以产生几十个大小的块兆字节。二进制文件格式允许这样做。
我怎样才能做到这一点? 更笼统地说:这是解决问题的正确方法吗?
谢谢!
【问题讨论】:
标签: apache-spark pyspark