【问题标题】:Accessing Cassandra from Google Cloud Dataproc从 Google Cloud Dataproc 访问 Cassandra
【发布时间】:2016-04-03 08:04:11
【问题描述】:

我刚刚使用 DataProc 在 Google Cloud 中设置了一个 Spark 集群,并且我在单独的 VM 上运行了一个独立安装的 Cassandra。我想安装 Datastax spark-cassandra 连接器,这样我就可以从 spark 连接到 Cassandra。我怎样才能做到这一点 ?

连接器可以在这里下载:

https://github.com/datastax/spark-cassandra-connector

关于构建的说明在这里: https://github.com/datastax/spark-cassandra-connector/blob/master/doc/12_building_and_artifacts.md

需要 sbt 来构建它。

在哪里可以找到用于 DataProc 安装的 sbt?

它会在 $SPARK_HOME/bin 下吗? DataProc 的 spark 安装在哪里?

【问题讨论】:

  • 连接器是否需要安装在整个集群上,还是可以通过 spark 包使用(诚然,在 Dataproc 上使用需要一些技巧)?如果软件包足够,请考虑在此问题上使用“简短答案”:stackoverflow.com/questions/33363189/…

标签: apache-spark google-cloud-platform google-cloud-dataproc


【解决方案1】:

我将跟进@angus-davis 不久前发表的非常有用的评论。

在哪里可以找到用于 DataProc 安装的 sbt?

目前,sbt 不包含在 Cloud Dataproc 集群中。 sbt documentation 包含有关如何手动安装 sbt 的信息。如果您需要在集群上重新安装 sbt,我强烈建议您在创建集群时创建一个 init action 来安装 sbt。经过一些研究,看起来 SBT 包含在 BSD-3 许可下,这意味着我们可能(不保证)可以将它包含在 Cloud Dataproc 集群中。

它会在 $SPARK_HOME/bin 下吗? DataProc 的 spark 安装在哪里?

这个问题的答案是这取决于你的意思。

  • 二进制文件 - /usr/bin
  • 配置-/etc/spark/conf
  • spark_home - /usr/lib/spark

重要的是,同样的模式也用于安装在 Cloud Dataproc 集群上的其他主要 OSS 组件,例如 Hadoop 和 Hive。

我想安装 Datastax spark-cassandra 连接器,以便我可以从 spark 连接到 Cassandra。我该怎么做?

如果可以将其用作 Spark 包,安格斯发送的Stack Overflow 答案可能是最简单的方法。然而,根据我能找到的,这可能不是一个选择。这意味着您将需要安装 sbt 并手动安装。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-11-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2016-11-12
    相关资源
    最近更新 更多