【问题标题】:Hadoop and Cassandra benchmarkingHadoop 和 Cassandra 基准测试
【发布时间】:2016-06-02 01:35:20
【问题描述】:

我最近构建了一个 Hadoop - Cloudera clusterCassandra 具有 2 个节点的集群。我现在想做一些基准测试,收集一些有关资源使用情况的数据。 我搜索了很多,发现HiBenchCassandra 压力工具。我不想和其他系统比较,我想自己衡量,但很难想象,我怎样才能得到真实正确的值。集群由 2 个虚拟机组成,使用 KVM 创建。 CassandraDocker 容器中。很难解释,如何分析这个系统,而不得到错误的结果。

【问题讨论】:

    标签: hadoop docker cassandra benchmarking stress-testing


    【解决方案1】:

    一些意见

    集群由 2 个使用 KVM 创建的虚拟机组成

    如果您想对性能进行基准测试,请不要使用虚拟机。事实上,Cassandra 在磁盘上执行顺序写入以优化扫描操作。通过使用虚拟机和共享磁盘,顺序写入的好处就丧失了,因为管理程序可以重新排序并在不同的磁盘扇区上分派连续的数据,从而破坏了之前对顺序扫描的优化

    另一种方法是确保每个虚拟机都有一个专用磁盘

    如果你不做性能基准,忽略上面的评论

    第二个建议,使用真实数据集,例如无法放入内存的大数据集,以便您了解每种技术的行为方式。阅读本文了解更多详情:http://www.nextplatform.com/2016/02/19/the-myth-of-in-memory-computing/

    【讨论】:

    • 非常感谢!首先,如何对该系统进行分析/基准测试。我现在无法修改它,但可能想展示一些关于资源及其使用的信息。在这种情况下,什么不会导致错误结果?
    • 使用虚拟机,您可以测试除性能之外的所有内容:高可用性(如果在测试过程中某个节点断电怎么办?)、数据的一致性等......
    • 但是这些数据无法分析。出于统计原因,它不适合。
    【解决方案2】:

    您可以使用雅虎云服务基准测试您的 Cassandra 集群。下面是它的链接和对应的 git 仓库。

    https://research.yahoo.com/news/yahoo-cloud-serving-benchmark/ https://github.com/brianfrankcooper/YCSB

    基准测试非常灵活,有很多参数可以更改,以充分了解集群行为和属性。然而, 这个框架的一个主要缺点是它默认使用随机数据。 但是,您可以调整代码以将其用于您自己的数据,然后它应该可以满足您的需求。

    【讨论】:

      猜你喜欢
      • 2017-05-25
      • 2014-07-30
      • 2016-05-15
      • 2013-07-08
      • 2013-11-19
      • 1970-01-01
      • 2012-10-13
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多