【问题标题】:Mahout - ParallelALSFactorizationJob running too long?Mahout - ParallelALSFactorizationJob 运行时间过长?
【发布时间】:2015-05-18 06:38:34
【问题描述】:

我正在尝试在 AWS EMR 集群上运行 Mahout ALS 推荐,但是它需要的时间比我预期的要长。

以下是我运行的命令:

aws add-steps --cluster-id <cluster_id> \
              --steps Type=CUSTOM_JAR,\
                      Name="Mahout ALS Factorization Job",\ 
                      Jar=s3://<my_bucket>/recproto/mahout-mr-0.10.0-job.jar,\
                      MainClass=org.apache.mahout.cf.taste.hadoop.als.ParallelALSFactorizationJob,\
                      Args=["--input","s3://<my_bucket>/recproto/trainingdata/userClicks.csv.gz",\
                            "--output","s3://<my_bucket>/recproto/als-output/",\
                            "--implicitFeedback","true",\
                            "--lambda","150",\
                            "--alpha","0.05",\
                            "--numFeatures","100",\
                            "--numIterations","3",\
                            "--numThreadsPerSolver","4",\
                            "--usesLongIDs","true"]

在 userClicks.csv 文件中,有来自 335,636 个用户1,567,808 个评分23,934 个项目

作业在 10-c3.xlarge 节点 EMR 集群上运行,并且作业已运行 2 小时以上。我想知道这正常吗?对于我的评分文件,我应该使用哪种规模的 EMR 集群和参数,以便获得更可接受的运行时间?

【问题讨论】:

    标签: hadoop mahout recommendation-engine emr


    【解决方案1】:

    我通过简单地使用 Spark ALS 解决了这个问题。训练过程在具有相同参数的相同数据集上花费不到 2 分钟我的笔记本电脑

    我现在可以理解为什么某些机器学习算法由于性能问题而被弃用...(例如 Minhash 算法)

    【讨论】:

      猜你喜欢
      • 2020-04-16
      • 2018-04-07
      • 2016-06-25
      • 1970-01-01
      • 2013-05-12
      • 2012-07-13
      • 2018-07-02
      • 2011-11-11
      • 1970-01-01
      相关资源
      最近更新 更多