【问题标题】:HIVE order by messes up dataHIVE 订单混乱数据
【发布时间】:2012-10-30 16:54:05
【问题描述】:

在带有 Hadoop 1.03 的 Hive 0.8 中,请考虑此表:

CREATE TABLE table (
  key int,
  date timestamp,
  name string,
  surname string,
  height int,
  weight int,
  age int) 
CLUSTERED BY(key) INTO 128 BUCKETS
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ',';

然后我尝试了:

select *
from table
where key=xxx
order by date;

结果已排序,但列名之后的所有内容都是错误的。事实上,所有行在各自的字段中具有完全相同的值,并且缺少姓氏列。我还有一个关于姓名和姓氏的位图索引以及一个关于键的索引。

我的查询是否有问题,或者我应该查看有关 order by 的错误(我找不到任何具体的内容)。

【问题讨论】:

    标签: hadoop sql-order-by hive hiveql


    【解决方案1】:

    似乎在将数据加载到配置单元时出错。确保您的 CSV 文件中没有任何可能干扰插入的特殊字符。

    并且您已按 key 属性进行聚类。这个密钥从 CSV 哪里来?或其他来源?你确定这是独一无二的吗?

    【讨论】:

    • 如果我在没有顺序的情况下尝试相同的查询,那么结果就很好了。所以它不能是任何特殊字符问题。关键是唯一的。
    猜你喜欢
    • 1970-01-01
    • 2020-09-06
    • 1970-01-01
    • 2016-01-16
    • 1970-01-01
    • 2014-06-16
    • 2015-07-20
    • 1970-01-01
    相关资源
    最近更新 更多