【问题标题】:How can I download GeoMesa on Azure Databricks?如何在 Azure Databricks 上下载 GeoMesa?
【发布时间】:2019-10-28 18:52:36
【问题描述】:
我有兴趣在 Apache Spark 上执行大数据地理空间分析。我的数据存储在 Azure 数据湖中,我只能使用 Azure Databricks。无论如何可以在 Databrick 上下载 Geomesa 吗?此外,我想使用 python api;我该怎么办?
非常感谢任何帮助!
【问题讨论】:
标签:
azure-databricks
geomesa
【解决方案1】:
您可以将 GeoMesa 库直接安装到 Databricks 集群中。
1)选择库选项,然后将打开一个新窗口。
2) 选择 maven 选项并点击“搜索包”选项
3) 搜索所需库并选择库/jar 版本并选择“选择”选项。
就是这样。
安装库/jar 后,重新启动集群。
现在在 Databricks 笔记本中导入所需的类。
我希望它有所帮助。快乐编码..
【解决方案3】:
CCRi(geomesa 的支持者)已生成 spark 运行时友好的构建。 GeoMesa(当前版本为 3.3.0)的阴影胖 jar 可在 maven 坐标org.locationtech.geomesa:geomesa-gt-spark-runtime_2.12:3.3.0 获得 Databricks。因为它是阴影的,用户可以添加 maven 排除项以使其干净地安装,这将是在 Databricks 库 UI 中添加了“jline:*,org.geotools:*”,不带引号。
【解决方案4】:
在 Databricks 中运行 GeoMesa 并不简单:
- GeoMesa 的工件在 Maven Central 上发布,但需要仅在第三方存储库上可用的依赖项,考虑到 Databricks 的库导入机制,这很麻烦。
- GeoMesa 与 Databricks 运行时中存在的旧版本的 scalalogging 库发生冲突(臭名昭著的 JAR Hell 问题)。
参考:Use GeoMesa in Databricks
希望这会有所帮助。