【问题标题】:upload tab separated file into bigtable将制表符分隔的文件上传到 bigtable
【发布时间】:2016-04-12 05:42:05
【问题描述】:

我正在运行具有 10 个节点的 cassandra 集群并每天上传巨大的 tsv[tab 分隔值] 文件,现在我想将我的项目移动到 google bigtable 以获得更好的性能和更低的延迟。
我安装了google cloud big table 3 node cluster,在云计算服务器[1 node]上安装了hbase插件,现在不知道如何开始将这些tsv文件上传到bigtable中。

下面是我的tsv格式,
col1 col2 col3 col4 col5 col6 。 .
这里 col1 是主键,col2 和 col3 是 cassandra 表中的集群键。
现在如何在 bigtable 中创建类似的表,以及可用于在 bigtable 中上传 tsv 文件的方法。

【问题讨论】:

    标签: csv hbase bigtable


    【解决方案1】:

    在 Bigtable 中,您只有一个行键。该键用作快速查找键。 Bigtable 根据行键按排序顺序存储所有数据。 Bigtable“列”需要添加到列族中。您可以预先配置列族,并且可以在发送突变时添加随机列/限定符。这里有更多信息:https://cloud.google.com/bigtable/docs/schema-design

    您还可以使用 Google Dataflow 导入任何类型的数据:https://cloud.google.com/bigtable/docs/dataflow-hbase。您必须编写少量 Java 代码,Google 会创建一个机器集群并在其上执行您的代码。您有一个 UI 来查看您的进度和日志。

    Bigtable 也可以通过与 hbase 兼容的 API 访问。这允许像 hbase 通过 hadoop 导入这样的工具开箱即用:https://cloud.google.com/bigtable/docs/exporting-importing

    我的偏好是数据流。

    【讨论】:

    • 感谢 Solomon 的回复,我在这里有点困惑如果我选择第二种方法 bigtable 和 hbase ,为什么我们需要 hadoop 集群?是hadoop集群需要使用hbase客户端加载数据还是我只使用hbase客户端简单加载数据。
    • 我假设您有很多数据并且您想快速加载它。您绝对可以仅通过 main 方法或通过包含具有 tsv 加载功能的命令行 shell 的本地安装 hbase 使用 hbase 客户端加载数据。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-10-05
    • 1970-01-01
    • 2023-04-02
    • 1970-01-01
    • 2013-03-09
    • 1970-01-01
    相关资源
    最近更新 更多