在 DSE Search 和 DSE Analytics Spark 之间拆分工作负载答案

【问题标题】：Splitting the workload between DSE Search and DSE Analytics Spark在 DSE Search 和 DSE Analytics Spark 之间拆分工作负载
【发布时间】：2015-09-03 08:40:07
【问题描述】：

我有 2 种类型的用例 - 搜索和分析。我还有 2 种不同的方法来对我的主键候选字段进行分类。

高基数字段的分区键，其中不同值的数量在 100,000 到 10,000,000 之间，例如：
- Customer_id
- Employee_id
- IP地址
- MAC_address

此处的行键查询通常会返回少量结果。二级索引和水龙头很实用，因为它们位于低基数字段 - 请参阅下面的 #2。

按低基数字段划分键，其中唯一值的数量小于 100，例如：
- event_type - 比如“购买”或“authenticated_OK”
- 平台 - 如 5 种操作系统或 50 种应用程序
- metric_type - 类似于 CPU_utilization
- 协议 - 如 http 或 ftp
- SNMP MIB 名称
- 国家/地区代码，例如我们、ca、uk
- 州，如德州，纽约州

按行键的典型查询会返回数百万个结果，可能需要进一步分析。二级索引在这里不太实用，因为它们通常位于上述 #1 的高基数字段上。

我的问题：：正在对上面#1 中的数据进行建模，更适合 DSE 搜索；和像上面 #2 这样的数据建模更适合 DSE 分析？

谢谢

【问题讨论】：

标签： datastax-enterprise

【解决方案1】：

第一个用例，如果对数据进行了适当建模并在适当大小的集群上进行查询，无需任何额外索引（无需二级索引或 solr aka DSE 搜索）即可很好地查询 cassandra。

第二个用例，根据提供的信息很难知道；但是，听起来确实可能是这样一种情况，即适当的数据模型和适当大小的 cassandra 集群以及低基数字段上的二级索引可能是一个不错的选择。但是，根据所提供的信息，您的访问模式究竟是什么并不清楚。

我建议你阅读这篇文章，它提供了一些关于二级索引和 cassandra 的 solr 的重要信息：When to use Cassandra vs. Solr in DSE?

【讨论】：