【发布时间】:2017-08-19 11:41:17
【问题描述】:
我在 hdfs 中有大约 6TB 的数据,分区为 hdfs://products/yyyy/mm/dd/hh 让我们称之为dataset1。 我每天的数据大小约为 5GB,我们称之为 dataset2,我需要根据连接条件将其插入/更新到 6TB。
我正在努力完成的任务如下
- 搜索 6TB 文件并查找存在于 5GB 文件中的客户 ID。如果找到记录,则使用新记录对其进行更新。
- 如果没有找到记录,则将其写入分区为 hdfs://products/yyyy/mm/dd/hh 的 hdfs
我需要使用 Spark 来实现这一点,我的问题是,每天读取 6TB 以查找存在于 5GB 大小文件中的客户 ID 是否会高效。
您能否建议使用 Spark 的替代合并模式?
【问题讨论】:
标签: apache-spark