【发布时间】:2021-10-26 05:48:09
【问题描述】:
就我而言,我需要将 impala 数据加载到 spark(pyspark)。
因为我想用spark mllib的FPGrowth。
数据在 kudu 中,由 impala 制作。在spark上直接连接kudu被相关部门拒绝。而且我也无法连接cloudera制作的impala jdbc。
所以我最后的选择是
- 使用 ibis (https://github.com/ibis-project/ibis) 加载数据
- 将
ImpalaTable转换为spark 的Dataframe
但我找不到方法。
我想错了吗?
【问题讨论】:
-
嗨。你有没有这样检查=>medium.com/@sciencecommitter/…但是你首先需要通过impala访问kudu。
-
@airliquide,我看过那个帖子,我重试了。我终于发现我在数据节点上遇到了防火墙问题。这就是为什么我无法查询 kudu 表(超时错误)而我可以获得信息的原因。非常感谢!!!!!!
标签: apache-spark pyspark impala kudu ibis