【发布时间】:2017-06-10 05:51:51
【问题描述】:
据我所知,从 cassandra 读取数据时,spark 每个 cassandra 分区最多使用一个任务。不幸的是,我在 cassandra 中有一些非常不平衡的分区(糟糕的初始表设计)。我需要将该数据读入一个新表,该表将更好地处理热点,但任何尝试使用正常的火花途径都不会有效;我剩下几个任务(10 多个)永远运行,处理那些巨大的分区键。
为了让您了解规模,这是在一个大小约为 1.5TB 的表上工作,分布在 5 台服务器上,复制因子为 3; ~ 每个节点 500GB。
欢迎其他想法,但仅转储到 CSV 可能不是一个现实的选择。
到目前为止,物化视图创建也是不行的;它花费的时间太长了,至少在 3.0.8 上,在创建过程中几乎没有监控。
【问题讨论】:
标签: apache-spark cassandra spark-cassandra-connector