【发布时间】:2020-08-04 04:30:01
【问题描述】:
我有一个 cassandra 表 - 测试:
+----+---------+---------+
| id | country | counter |
+====+=========+=========+
| A | RU | 1 |
+----+---------+---------+
| B | EN | 2 |
+----+---------+---------+
| C | IQ | 1 |
+----+---------+---------+
| D | RU | 3 |
+----+---------+---------+
此外,我在同一空间中有一个表 main,其中包含“country_main”和“main_id”列。 在 main_id 列中,我有与测试表中相同的 id,而且我有一些唯一的 id。 country_main 具有空值,与测试中的相同。例如:
+---------+--------------+---------+
| main_id | country_main | ...|
+=========+==============+=========+
| A | | ...|
+---------+--------------+---------+
| B | EN | ...|
+---------+--------------+---------+
| Y | IQ | ...|
+---------+--------------+---------+
| Z | RU | ...|
+---------+--------------+---------+
如何使用pyspark将test表中的数据插入到main中,根据ids填充country_main中的空值?
【问题讨论】:
标签: apache-spark pyspark cassandra spark-cassandra-connector