【发布时间】:2019-08-20 13:45:03
【问题描述】:
我有多个固定宽度的平面文件。文件记录计数来自以“!”为前缀的预告片记录
我将此数据存储在 hive 暂存表中,这些暂存表采用文本文件格式,并使用skip.footer.line.count 跳过预告片记录,给出为1。
暂存表只有 1 个名为 data_table_name 的列,来自各个平面文件的整个记录都存储在此处。
目标表采用 parquet 格式,并使用暂存表中的 data_table_name 列的子字符串填充到目标表的多个列中。
只要文件大小超过 256 MB,跳过预告片就不能正常工作,而是跳过文件中间的一条记录。
我在下面的链接中发现了相同的问题,但不知道解决方案是什么。有人可以建议如何解决它。
https://issues.apache.org/jira/plugins/servlet/mobile#issue/HIVE-15359
【问题讨论】:
标签: hive