【发布时间】:2020-09-07 22:16:26
【问题描述】:
我想编写代码,使用 python 从 teradata 获取数据。代码应该在集群和本地使用 spark 运行时工作。使用 spark 运行时,我不想在执行程序上打开连接。所以计划是使用 teradatasql 包在驱动程序上运行代码。由于 teradatasql 软件包所以库我认为我没有在集群上安装 teradata 库。
我将依赖项(即 teradatasql)打包为 egg 文件,并将其作为 --py-files 传递。但是在代码上运行时,teradatasql 无法从 egg 文件中读取库。
Os 错误:teradatasql.so 无法打开共享对象文件。不是目录。
我按照以下步骤打包了 egg 文件。 1. pip install teradatasql --target./src # 注意我所有的代码都在 src 文件夹中。执行此步骤将在我的 src 文件夹中安装 teradatasql 包。它包含 teradatasql.so 库 2. setup.py中的packages=find_packages('src'), package_data={'teradatasql':['teradatasql.so']} 3. python setup.py bdist_eggg
【问题讨论】:
-
请分享您是如何生成egg文件的,以便我们了解更多详情
-
我分享了步骤
标签: python apache-spark teradata