【问题标题】:Ignore Nulls with Data frame using spark datastax connector使用 spark datastax 连接器忽略带有数据框的 Null
【发布时间】:2019-12-30 18:16:15
【问题描述】:

我们有一个包含 50 多列的 Cassandra 架构,我们通过使用 Spark 转换数据(数据帧不是 rdd)将来自多个数据源的数据插入其中。

由于我们的数据稀疏,我们遇到了许多墓碑的问题。

已经尝试过spark.cassandra.output.ignoreNulls=true,但它不起作用。在 cassandra 中不写入空值的正确配置是什么?

我正在使用 zeppelin 运行我的 spark 代码并将数据推送到 C*

【问题讨论】:

    标签: dataframe apache-spark cassandra datastax connector


    【解决方案1】:

    想出了解决办法:

    文档中存在提示:https://github.com/datastax/spark-cassandra-connector/blob/master/doc/14_data_frames.mdSetting Connector Specific Options on Datasets 主题下。

    确切的代码如下所示:

    transformedData.write.format("org.apache.spark.sql.cassandra").option("header","false").option("spark.cassandra.output.ignoreNulls", true).mode("append").options(Map( "table" -> table_name, "keyspace" -> keyspace_name)).save()
    

    【讨论】:

    • 我试过这个,但我的 Cassandra 表中仍然有空值。还有其他东西,可能需要设置或更改。请提出建议。
    • 你使用的是原始数据类型还是复杂数据类型
    猜你喜欢
    • 2023-03-03
    • 2016-08-11
    • 2015-05-24
    • 2020-10-17
    • 2016-02-04
    • 2016-01-04
    • 2015-08-16
    • 2023-03-06
    • 2015-05-21
    相关资源
    最近更新 更多