【发布时间】:2018-12-30 12:13:50
【问题描述】:
我正在尝试将以下 python 脚本提交到 Spark Cluster。我有 2 个奴隶正在运行
from sklearn import grid_search, datasets
from sklearn.ensemble import RandomForestClassifier
# Use spark_sklearn’s grid search instead:
from spark_sklearn.grid_search import GridSearchCV
digits = datasets.load_digits()
X, y = digits.data, digits.target
param_grid = {"max_depth": [3, None],
"max_features": [1, 3, 10],
"min_samples_split": [2, 3, 10],
"min_samples_leaf": [1, 3, 10],
"bootstrap": [True, False],
"criterion": ["gini", "entropy"],
"n_estimators": [10, 20, 40, 80]}
gs = grid_search.GridSearchCV(RandomForestClassifier(), param_grid=param_grid)
gs.fit(X, y)
我正在使用 shell 中的以下命令来提交应用程序
./bin/spark-submit --master spark://122.138.1.66:7077 '/script/trainspark.py'
但是,我在主 GUI 的“运行应用程序”部分中没有看到。我错过了什么吗?
【问题讨论】:
标签: apache-spark pyspark spark-submit