【发布时间】:2018-07-23 21:22:31
【问题描述】:
我有一个 ETL 来分析大数据,我的所有表都是 Spark 2.2.X 的 DataFrames。现在,我必须添加数据治理才能知道数据的来源。例如:
表A
| Col1 | Col2 |
| ---- | ---- |
| test | hello |
| test3 | bye |
表 B
| Col1 | Col2 |
| ---- | ---- |
| test2 | hey |
| test3 | bye |
现在我有两个表,我要做的是通过Col1 和Col2 + Col2 进行连接。结果表:
决赛桌
| Col1 | Col2 |
| ---- | ---- |
|test3 | byebye|
我的问题是,Spark DataFrame、API 中是否有任何功能不会让我对代码进行太多更改,并且我可以在 DataFrame 中显示我拥有的所有转换?
【问题讨论】:
标签: scala apache-spark apache-spark-sql