【发布时间】:2018-02-25 01:51:56
【问题描述】:
我已经使用来自elastic 的elasticsearch-hadoop 插件从hive 将数据加载到我的elasticsearch 集群中。
我需要获取唯一帐号的计数。我用hql 和queryDSL 编写了以下查询,但是它们返回的计数不同。
Hive 查询:
select count(distinct account) from <tableName> where capacity="550";
// Returns --> 71132
类似地,在 Elasticsearch 中,查询看起来像这样:
{
"query": {
"bool": {
"must": [
{"match": { "capacity": "550"}}
]
}
},
"aggs": {
"unique_account": {
"cardinality": {
"field": "account"
}
}
}
}
// Returns --> 71607
我做错了吗?我该怎么做才能匹配这两个查询?
Note:hive和elasticsearch中的记录数完全一样。
【问题讨论】:
标签: elasticsearch hive hiveql querydsl elasticsearch-hadoop