【发布时间】:2019-01-07 10:07:00
【问题描述】:
为了在分布式设置中处理数据,您可以进行任务并行化或数据并行化。到目前为止,我只遇到过数据并行化。
任务并行性:将任务分解成更小的任务并并行处理。
数据并行性:将数据分解成更小的数据块并并行处理。
例如 MapReduce 对我来说是数据并行化,因为您会将数据分区到不同的映射器。像桶排序这样的算法也是数据并行化,因为您将要在“桶”中排序的数据分解并提供给不同的节点。
实际上,如果没有数据并行化,似乎就没有“纯”任务并行化。例如,如果我们想要处理一个大的 CSV 文件并通过一个独立的节点以不同的方式处理每一列,对我来说,按列分解数据也是有意义的(数据并行化也是如此)。
有没有数据并行化的任务并行化示例?
【问题讨论】:
标签: database parallel-processing data-processing