ibis ImpalaTable 到 pyspark 数据框

【问题标题】：ibis ImpalaTable to pyspark dataframeibis ImpalaTable 到 pyspark 数据框
【发布时间】：2021-10-26 05:48:09
【问题描述】：

就我而言，我需要将 impala 数据加载到 spark(pyspark)。因为我想用spark mllib的FPGrowth。

数据在 kudu 中，由 impala 制作。在spark上直接连接kudu被相关部门拒绝。而且我也无法连接cloudera制作的impala jdbc。
所以我最后的选择是

使用 ibis (https://github.com/ibis-project/ibis) 加载数据
将ImpalaTable 转换为spark 的Dataframe

但我找不到方法。
我想错了吗？

【问题讨论】：

嗨。你有没有这样检查=>medium.com/@sciencecommitter/…但是你首先需要通过impala访问kudu。
@airliquide，我看过那个帖子，我重试了。我终于发现我在数据节点上遇到了防火墙问题。这就是为什么我无法查询 kudu 表（超时错误）而我可以获得信息的原因。非常感谢！！！！！！

标签： apache-spark pyspark impala kudu ibis

【解决方案1】：

以前，this way 不适合我。
我可以获得表的架构，但由于超时而无法查询。

我终于发现了一个问题。我的问题是由防火墙引起的。
我只打开了主节点的端口，但是我需要打开数据节点的端口。
现在一切都很好。

【讨论】：

猜你喜欢

1970-01-01
1970-01-01
2022-08-21
2022-07-11
1970-01-01
2021-11-14
1970-01-01
1970-01-01
2022-01-25

相关资源

下载 2023-02-05
下载 2023-01-06
下载 2021-06-06

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode