使用 spark datastax 连接器忽略带有数据框的 Null

【问题标题】：Ignore Nulls with Data frame using spark datastax connector使用 spark datastax 连接器忽略带有数据框的 Null
【发布时间】：2019-12-30 18:16:15
【问题描述】：

我们有一个包含 50 多列的 Cassandra 架构，我们通过使用 Spark 转换数据（数据帧不是 rdd）将来自多个数据源的数据插入其中。

由于我们的数据稀疏，我们遇到了许多墓碑的问题。

已经尝试过spark.cassandra.output.ignoreNulls=true，但它不起作用。在 cassandra 中不写入空值的正确配置是什么？

我正在使用 zeppelin 运行我的 spark 代码并将数据推送到 C*

【问题讨论】：

标签： dataframe apache-spark cassandra datastax connector

【解决方案1】：

想出了解决办法：

文档中存在提示：https://github.com/datastax/spark-cassandra-connector/blob/master/doc/14_data_frames.md 在Setting Connector Specific Options on Datasets 主题下。

确切的代码如下所示：

transformedData.write.format("org.apache.spark.sql.cassandra").option("header","false").option("spark.cassandra.output.ignoreNulls", true).mode("append").options(Map( "table" -> table_name, "keyspace" -> keyspace_name)).save()

【讨论】：

我试过这个，但我的 Cassandra 表中仍然有空值。还有其他东西，可能需要设置或更改。请提出建议。
你使用的是原始数据类型还是复杂数据类型