【问题标题】:spark Cassandra tuning火花卡桑德拉调整
【发布时间】:2018-08-14 05:34:54
【问题描述】:

如何在 Spark Scala 代码中设置以下 Cassandra 写入参数 版本 - DataStax Spark Cassandra 连接器 1.6.3.

Spark 版本 - 1.6.2

spark.cassandra.output.batch.size.rows

spark.cassandra.output.concurrent.writes

spark.cassandra.output.batch.size.bytes

spark.cassandra.output.batch.grouping.key

谢谢, 钱德拉

【问题讨论】:

    标签: scala apache-spark cassandra datastax


    【解决方案1】:

    在 DataStax Spark Cassandra Connector 1.6.X 中,您可以将这些参数作为SparkConf 的一部分传递。

    val conf = new SparkConf(true)
        .set("spark.cassandra.connection.host", "192.168.123.10")
        .set("spark.cassandra.auth.username", "cassandra")            
        .set("spark.cassandra.auth.password", "cassandra")
        .set("spark.cassandra.output.batch.size.rows", "100")            
        .set("spark.cassandra.output.concurrent.writes", "100")
        .set("spark.cassandra.output.batch.size.bytes", "100")            
        .set("spark.cassandra.output.batch.grouping.key", "partition")
    
    val sc = new SparkContext("spark://192.168.123.10:7077", "test", conf)
    

    您可以参考这个readme了解更多信息。

    【讨论】:

      【解决方案2】:

      最灵活的方法是将这些变量添加到一个文件中,例如spark.conf

      spark.cassandra.output.concurrent.writes 10
      

      等等... 然后在您的应用程序中创建您的火花上下文,例如:

      val conf = new SparkConf()
      val sc = new SparkContext(conf)
      

      最后,当您提交您的应用程序时,您可以指定您的属性文件:

      spark-submit --properties-file spark.conf ...
      

      在创建 spark 上下文时,Spark 会自动从 spark.conf 读取您的配置 这样,您可以修改 spark.conf 中的属性,而无需每次都重新编译代码。

      【讨论】:

        猜你喜欢
        • 2016-01-27
        • 2017-11-14
        • 1970-01-01
        • 2016-06-16
        • 1970-01-01
        • 2017-11-05
        • 2011-08-07
        • 2015-10-19
        • 2015-03-04
        相关资源
        最近更新 更多