【问题标题】:How to generate tables in parallel with tpc-ds benchmark?如何与 tpc-ds benchmark 并行生成表?
【发布时间】:2019-06-17 12:58:54
【问题描述】:

如何运行 tpc-ds 数据生成 (dsdgen),然后以并行分布式模式对这些数据 (dsqgen) 运行查询。我在纱线配置 (spark.master yarn) 上使用 Spark,并将数据存储在突发缓冲区存储系统上。

【问题讨论】:

    标签: apache-spark tpc


    【解决方案1】:

    请查看我目前的探索@https://github.com/dhiraa/spark-tpcds。吨 t 下有应用,可以并行生成数据。

    或者你可以查看我的参考@https://github.com/maropu/spark-tpcds-datagen

    在这两种情况下不要忘记使用选项“--partition-tables”来利用并行生成。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-09-29
      相关资源
      最近更新 更多