【发布时间】:2015-05-18 06:38:34
【问题描述】:
我正在尝试在 AWS EMR 集群上运行 Mahout ALS 推荐,但是它需要的时间比我预期的要长。
以下是我运行的命令:
aws add-steps --cluster-id <cluster_id> \
--steps Type=CUSTOM_JAR,\
Name="Mahout ALS Factorization Job",\
Jar=s3://<my_bucket>/recproto/mahout-mr-0.10.0-job.jar,\
MainClass=org.apache.mahout.cf.taste.hadoop.als.ParallelALSFactorizationJob,\
Args=["--input","s3://<my_bucket>/recproto/trainingdata/userClicks.csv.gz",\
"--output","s3://<my_bucket>/recproto/als-output/",\
"--implicitFeedback","true",\
"--lambda","150",\
"--alpha","0.05",\
"--numFeatures","100",\
"--numIterations","3",\
"--numThreadsPerSolver","4",\
"--usesLongIDs","true"]
在 userClicks.csv 文件中,有来自 335,636 个用户的 1,567,808 个评分和 23,934 个项目。
作业在 10-c3.xlarge 节点 EMR 集群上运行,并且作业已运行 2 小时以上。我想知道这正常吗?对于我的评分文件,我应该使用哪种规模的 EMR 集群和参数,以便获得更可接受的运行时间?
【问题讨论】:
标签: hadoop mahout recommendation-engine emr