将制表符分隔的文件上传到 bigtable答案

【问题标题】：upload tab separated file into bigtable将制表符分隔的文件上传到 bigtable
【发布时间】：2016-04-12 05:42:05
【问题描述】：

我正在运行具有 10 个节点的 cassandra 集群并每天上传巨大的 tsv[tab 分隔值] 文件，现在我想将我的项目移动到 google bigtable 以获得更好的性能和更低的延迟。
我安装了google cloud big table 3 node cluster，在云计算服务器[1 node]上安装了hbase插件，现在不知道如何开始将这些tsv文件上传到bigtable中。

下面是我的tsv格式，
col1 col2 col3 col4 col5 col6 。 .
这里 col1 是主键，col2 和 col3 是 cassandra 表中的集群键。
现在如何在 bigtable 中创建类似的表，以及可用于在 bigtable 中上传 tsv 文件的方法。

【问题讨论】：

标签： csv hbase bigtable

【解决方案1】：

在 Bigtable 中，您只有一个行键。该键用作快速查找键。 Bigtable 根据行键按排序顺序存储所有数据。 Bigtable“列”需要添加到列族中。您可以预先配置列族，并且可以在发送突变时添加随机列/限定符。这里有更多信息：https://cloud.google.com/bigtable/docs/schema-design。

您还可以使用 Google Dataflow 导入任何类型的数据：https://cloud.google.com/bigtable/docs/dataflow-hbase。您必须编写少量 Java 代码，Google 会创建一个机器集群并在其上执行您的代码。您有一个 UI 来查看您的进度和日志。

Bigtable 也可以通过与 hbase 兼容的 API 访问。这允许像 hbase 通过 hadoop 导入这样的工具开箱即用：https://cloud.google.com/bigtable/docs/exporting-importing

我的偏好是数据流。

【讨论】：

感谢 Solomon 的回复，我在这里有点困惑如果我选择第二种方法 bigtable 和 hbase ，为什么我们需要 hadoop 集群？是hadoop集群需要使用hbase客户端加载数据还是我只使用hbase客户端简单加载数据。
我假设您有很多数据并且您想快速加载它。您绝对可以仅通过 main 方法或通过包含具有 tsv 加载功能的命令行 shell 的本地安装 hbase 使用 hbase 客户端加载数据。