【发布时间】:2019-01-23 00:33:55
【问题描述】:
我正在尝试在 Python 中编写一个需要大型 numpy 矩阵作为侧输入的数据流管道。矩阵保存在云存储中。理想情况下,每个 Dataflow 工作人员都会直接从云存储中加载矩阵。
我的理解是,如果我说matrix = np.load(LOCAL_PATH_TO_MATRIX),然后
p | "computation" >> beam.Map(computation, matrix)
矩阵从我的笔记本电脑运送到每个 Datflow 工作人员。
我怎样才能指示每个工作人员直接从云存储中加载矩阵?有“二进制斑点”的光束源吗?
【问题讨论】:
标签: google-cloud-dataflow apache-beam