【发布时间】:2021-02-11 00:33:31
【问题描述】:
R 中的空间包通常依赖于 C 库进行数值计算。如果 R 引擎无法使用默认权限安装这些库,则在安装依赖这些库的 R 包时会出现问题。看来,databricks 集群给 R 带来了这样的障碍。我想有两种方法可以解决这个问题,1)使用相关脚本创建一个 docker 容器来安装软件包,或者 2)通过 init 脚本安装它们。我认为后一种方法会更容易,但我遇到了一些问题。集群无法启动,因为我的 init 脚本无法执行。见下文-我也试过sudo
set -euxo pipefail
apt install libgeos-dev
apt install libudunits2-dev
apt install libgdal-dev
相关,这些应该只安装在驱动节点上吗?我看不出他们需要在工作节点上的原因。上面的代码将它安装在我认为的工人和司机身上。要安装在驱动程序上,我想它会是:
if [[ $DB_IS_DRIVER = "TRUE" ]]; then
apt install libgeos-dev
apt install libudunits2-dev
apt install libgdal-dev
【问题讨论】:
-
初始化脚本出现什么错误?
-
没有错误,初始化脚本永远不会完成处理和集群,即使等待一个小时后也只是继续旋转......
-
我认为安装的漫长等待时间与在每个工作节点上安装库有关,但即使在两个工作节点的集群上它也从未完成并运行后一个代码(仅安装在驱动程序上)导致初始化脚本失败 - 没有关于失败的详细信息 - 事件日志只是提到它失败了。
-
你可以启用集群日志到DBFS,然后它也会包含init脚本的日志,你可以通过
databrics fs ...将它拉到本地机器
标签: r databricks gdal geos aws-databricks