【发布时间】:2014-12-23 14:41:40
【问题描述】:
我的样本可以属于 0 类或 1 类,但对于我的一些样本,我只有它们属于 1 类的概率。到目前为止,我已经通过应用阈值来离散化我的目标变量,即所有 y >= t 我分配给第 1 类,并且我丢弃了所有属于第 1 类的概率非零的样本。然后我使用 scitkit-learn 将线性 SVM 拟合到数据中。
当然,通过这种方式,我通过了相当多的训练数据。我的一个想法是省略离散化并改用回归,但通常通过回归进行分类并不是一个好主意,例如它不能保证预测值在区间 [0,1] 内。
顺便说一下,我的特征 x 的性质与其中一些相似,我也只有相应特征出现的概率。如果我以与离散因变量相同的方式离散我的特征,那么对于这个错误并没有太大的区别。
【问题讨论】:
标签: machine-learning scikit-learn classification regression