【发布时间】:2011-08-11 06:48:24
【问题描述】:
我的数据在 HDFS 的 data/2011/01/13/0100/file 中,每个文件都包含制表符分隔的数据,比如名称、ip、url。
我想在 Hive 中创建一个表并从 hdfs 导入数据,表应该包含时间、名称、ip 和 url。
如何使用 Hive 导入这些? r 数据应该是其他格式,以便我也可以导入时间?
【问题讨论】:
我的数据在 HDFS 的 data/2011/01/13/0100/file 中,每个文件都包含制表符分隔的数据,比如名称、ip、url。
我想在 Hive 中创建一个表并从 hdfs 导入数据,表应该包含时间、名称、ip 和 url。
如何使用 Hive 导入这些? r 数据应该是其他格式,以便我也可以导入时间?
【问题讨论】:
为此,您必须使用分区,请在此处阅读有关它们的更多信息:
【讨论】:
您需要创建表以将文件加载到其中,然后使用 LOAD DATA 命令将文件加载到 Hive 表中。请参阅Hive documentation 了解要使用的准确语法。
问候, 杰夫
【讨论】:
您可以为此类数据创建一个外部表。
类似:
CREATE EXTERNAL TABLE log_data (name STRING, ip STRING, url STRING) 分区依据(年 BIGINT、月 BIGINT、日 BIGINT、小时 BIGINT) 以“\t”结尾的行格式分隔字段存储为 TEXTFILE 位置“数据”
【讨论】: