【发布时间】:2014-09-18 06:17:30
【问题描述】:
我需要的数据格式:
12cef8e1b711a351 [1377045694501,1377045728475,1377045709652]
12cf3cb988f10a87 [1380741459591,1380739871201,1380739785397,1380740303830,1380739849591]
12d1be8adb90a88b [1375541238666,1375541281821]
12d29ba61341e7ce [1377855844089,1377855785342]
12d2e28e50d42d19 [1381974506104,1381973579872,1377988785664,1381976074258]
我拥有的数据格式 - 一切都是制表符分隔的:
12cef8e1b711a351 1377045694501 377045728475 1377045709652
12cf3cb988f10a87 1380741459591 1380739871201 1380739785397 1380740303830 1380739849591
12d1be8adb90a88b 1375541238666 1375541281821
12d29ba61341e7ce 1377855844089 1377855785342
12d2e28e50d42d19 1381974506104 1381973579872 1377988785664 1381976074258
如何处理制表符分隔的数据,以便第一个字段与其余字段用制表符分隔,其他所有内容都以逗号分隔并由 [] 包围。可能每个逗号分隔的项目也必须以“”结尾。
我需要将这些数据读入 Hive 表中
CREATE TABLE id_timestamps (id STRING, timestamps array<STRING>);
我可以通过一些技巧或 shell 将它直接读取到 Hive 我使用 awk 或 sed 转换制表符分隔的数据吗?请帮忙提供一些建议和食谱。
谢谢!
【问题讨论】: