【发布时间】:2014-12-30 14:09:00
【问题描述】:
我在 HDFS 中有自己的文件格式,如下所示
<bytes_for_size_of_header><header_as_protobuf_bytes><bytes_for_size_of_a_record><record_as_protobuf_bytes>...
如我们所见,文件中的每条记录都使用协议缓冲区进行编码
我一直在尝试使用 hive 读取这些文件,并且我认为我应该创建一个输入格式,一个来自旧版本的 mapreduce API 的记录读取器,以及一个用于解码 protobuf 记录的 serde。
以前有没有人这样做过,我是否朝着正确的方向前进?任何帮助将不胜感激。
【问题讨论】:
标签: hadoop mapreduce hive hdfs protocol-buffers