【发布时间】:2014-06-19 02:35:08
【问题描述】:
我正在使用 Azure 上的 HDInsight 来研究在 Hadoop 上排名机器学习方法(内部人员学习排名)的可扩展性。我设法在 HDInsight 集群上测试运行我的学习排名算法的实现,并计算完成操作的时间。
现在我想用不同数量的内核一遍又一遍地运行相同的代码,以查看运行时间如何随内核数量的变化而变化。从这个论坛上的其他问题中,我了解到 HDInsight 不允许更改集群的核心数。是否可以以某种方式删除当前集群,然后创建一个使用 Azure 存储上完全相同的容器的新集群?我试图通过简单地为新集群赋予与前一个集群相同的名称来做到这一点(因为为新集群创建的容器在创建时自动以集群命名),但这不能作为新容器工作为这个新集群创建的集群名称将附加“-1”。我尝试处理的数据文件大小约为 15GB,因此如果我需要将此文件上传到我创建的每个集群的集群容器中,那将是一件非常痛苦的事情。
对于如何在 HDInsight 上使用不同数量的内核运行算法而无需为每个测量点重新上传输入数据的任何帮助,我们将不胜感激!
亲切的问候,
尼克税
【问题讨论】:
标签: azure azure-storage azure-hdinsight