【问题标题】:How to convert cassandra to HDFS file system for shark/hive query如何将 cassandra 转换为 HDFS 文件系统以进行鲨鱼/蜂巢查询
【发布时间】:2014-01-16 23:17:59
【问题描述】:

有没有办法将 cassandra 数据公开为 HDFS,然后在 HDFS 上执行 Shark/Hive 查询??

如果是,请提供一些将 cassandra db 转换为 HDFS 的链接。

【问题讨论】:

    标签: hadoop cassandra hive hdfs apache-spark


    【解决方案1】:

    您可以编写身份 MapReduce 代码,该代码从 CFS(cassandra 文件系统)获取输入并将数据转储到 HDFS。

    在 HDFS 中拥有数据后,您可以映射配置单元表并运行查询。

    【讨论】:

      【解决方案2】:

      在 Hive 中访问 Cassandra 数据的典型方法是使用 CqlStorageHandler。 详情见Hive Support for Cassandra CQL3

      但如果您有某些理由直接访问数据,请查看Cassowary。它是“直接读取 SSTables 的 Cassandra 和 Shark 的 Hive 存储处理程序。这允许完全控制用于运行即席查询的资源,从而控制对实时 Cassandra 性能的影响。”

      【讨论】:

        【解决方案3】:

        我认为您正在尝试针对 Cassandra 中已有的数据运行 Hive/Shark。如果是这种情况,那么您不需要将其作为 HDFS 访问,但您需要一个配置单元处理程序来针对 Cassandra 使用它。

        为此,您可以使用Tuplejump's 项目,CASH 自述文件提供了有关如何构建和使用它的说明。如果你想把你的“大文件”放在 Cassandra 中并像从 HDFS 一样查询它们,你需要一个在 Cassandra 上运行的文件系统,比如 DSE 中的 DataStax's CFS,或者 Tuplejump 的 SnackFS(出现在 @987654324 中) @抢先体验回购)

        免责声明:我在 Tuplejump, Inc. 工作

        【讨论】:

          【解决方案4】:

          您可以使用 Tuplejump Calliope 项目。 https://github.com/tuplejump/calliope

          使用 TumpleJump 代码中提供的存储处理程序在 Shark(如 Hive)中配置外部 Cassandra 表。

          一切顺利!

          【讨论】:

            【解决方案5】:
            猜你喜欢
            • 1970-01-01
            • 2014-04-02
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            • 1970-01-01
            相关资源
            最近更新 更多