很大程度上取决于数据本身。一般来说,Spark 在必须读取大的、不可拆分的文件时表现不佳。不过,您可以尝试使用 binaryFiles 方法并将其与标准 Python 工具结合使用。让我们从一个虚拟数据开始:
import tempfile
import pandas as pd
import numpy as np
outdir = tempfile.mkdtemp()
for i in range(5):
pd.DataFrame(
np.random.randn(10, 2), columns=['foo', 'bar']
).to_pickle(tempfile.mkstemp(dir=outdir)[1])
接下来我们可以使用bianryFiles方法读取它:
rdd = sc.binaryFiles(outdir)
并反序列化单个对象:
import pickle
from io import BytesIO
dfs = rdd.values().map(lambda p: pickle.load(BytesIO(p)))
dfs.first()[:3]
## foo bar
## 0 -0.162584 -2.179106
## 1 0.269399 -0.433037
## 2 -0.295244 0.119195
一个重要的注意事项是,它通常需要比textFile 等简单方法更多的内存。
另一种方法是仅并行化路径并使用可以直接从分布式文件系统(如hdfs3)读取的库。这通常意味着以显着更差的数据局部性为代价降低内存需求。
考虑到这两个事实,通常最好以可以更高粒度加载的格式序列化您的数据。
注意:
SparkContext 提供pickleFile 方法,但名称可能会产生误导。它可用于读取包含泡菜对象的SequenceFiles,而不是普通的 Python 泡菜。