【发布时间】:2015-05-22 05:51:39
【问题描述】:
我是 scikit-learn 的常客,我想了解有关 SGD 的“class_weight”参数的一些见解。
直到函数调用我才能弄清楚
plain_sgd(coef, intercept, est.loss_function,
penalty_type, alpha, C, est.l1_ratio,
dataset, n_iter, int(est.fit_intercept),
int(est.verbose), int(est.shuffle), est.random_state,
pos_weight, neg_weight,
learning_rate_type, est.eta0,
est.power_t, est.t_, intercept_decay)
https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/linear_model/stochastic_gradient.py
在这之后它转到 sgd_fast 并且我对 cpython 不是很好。你能在这些问题上给出一些迅速。
- 我在开发集中有一个类有偏差,其中正类是 15k,负类是 36k。 class_weight 会解决这个问题吗?或者进行欠采样将是一个更好的主意。我的数字越来越好,但很难解释。
- 如果是,那么它实际上是如何做到的。我的意思是它是应用于特征惩罚还是优化函数的权重。我该如何向外行解释?
【问题讨论】:
标签: python-2.7 machine-learning scikit-learn