【问题标题】:Splitting the workload between DSE Search and DSE Analytics Spark在 DSE Search 和 DSE Analytics Spark 之间拆分工作负载
【发布时间】:2015-09-03 08:40:07
【问题描述】:

我有 2 种类型的用例 - 搜索和分析。我还有 2 种不同的方法来对我的主键候选字段进行分类。

  1. 高基数字段的分区键,其中不同值的数量在 100,000 到 10,000,000 之间,例如:
    • Customer_id
    • Employee_id
    • IP地址
    • MAC_address

此处的行键查询通常会返回少量结果。二级索引和水龙头很实用,因为它们位于低基数字段 - 请参阅下面的 #2。

  1. 按低基数字段划分键,其中唯一值的数量小于 100,例如:
    • event_type - 比如“购买”或“authenticated_OK”
    • 平台 - 如 5 种操作系统或 50 种应用程序
    • metric_type - 类似于 CPU_utilization
    • 协议 - 如 http 或 ftp
    • SNMP MIB 名称
    • 国家/地区代码,例如我们、ca、uk
    • 州,如德州,纽约州

按行键的典型查询会返回数百万个结果,可能需要进一步分析。 二级索引在这里不太实用,因为它们通常位于上述 #1 的高基数字段上。

我的问题:: 正在对上面#1 中的数据进行建模,更适合 DSE 搜索;和 像上面 #2 这样的数据建模更适合 DSE 分析?

谢谢

【问题讨论】:

    标签: datastax-enterprise


    【解决方案1】:

    第一个用例,如果对数据进行了适当建模并在适当大小的集群上进行查询,无需任何额外索引(无需二级索引或 solr aka DSE 搜索)即可很好地查询 cassandra。

    第二个用例,根据提供的信息很难知道;但是,听起来确实可能是这样一种情况,即适当的数据模型和适当大小的 cassandra 集群以及低基数字段上的二级索引可能是一个不错的选择。但是,根据所提供的信息,您的访问模式究竟是什么并不清楚。

    我建议你阅读这篇文章,它提供了一些关于二级索引和 cassandra 的 solr 的重要信息:When to use Cassandra vs. Solr in DSE?

    【讨论】:

      猜你喜欢
      • 2014-11-04
      • 2014-01-01
      • 1970-01-01
      • 2015-08-24
      • 2015-10-15
      • 2015-08-09
      • 2016-05-22
      • 2020-08-01
      • 2018-08-24
      相关资源
      最近更新 更多