【发布时间】:2019-05-19 02:18:17
【问题描述】:
这是我的用例。
- 有多个来源 df1 到 df4,df3 代表一个现有的 hive 表
- 构建一个从 df1 到 df4 的 df5
- 将 df5 插入/附加到该现有配置单元表。
- 将 df5 保存到其他位置。
问题是第 4 步没有保存任何内容。 这是否意味着在第 3 步之后, df3 会改变? 我已经为 df1 到 df5 使用了 cache()。但看起来如果源已更改,df5 会重新计算 我检查了 Spark Web UI 存储。所有数据帧都 100% 缓存。
【问题讨论】:
标签: scala apache-spark dataframe caching