【问题标题】:Logistic Regression's ROC Goes AbnormalLogistic 回归的 ROC 异常
【发布时间】:2019-03-11 21:46:53
【问题描述】:

目前,我正在学习逻辑回归和 LDA(线性判别分析)分类。我正在尝试以不同的方式生成数据以学习逻辑回归和 LDA 行为。

这是二维预测变量的数据可视化,其中类绘制为颜色:
这是我的代码:

library(ggplot2)
library(MASS)

set.seed(1)

a <- mvrnorm(n = 1000, mu = c(0,0), Sigma = matrix(c(0.4,0,0,0.4), nrow = 2, ncol = 2))
b <- mvrnorm(n = 1000, mu = c(0,0), Sigma = matrix(c(10,0,0,10), nrow = 2, ncol =2 ))

#I want to make sure b1 separated from a
b1 <- b[sqrt(b[,1]^2 + b[,2]^2) > 4,]

df <- as.data.frame(rbind(a,b1))
names(df) <- c('x','y')
labelA <- rep('A', nrow(a))
labelB <- rep('B', nrow(b1))
#Put the label column to the data frame
df$labs <- c(labelA,labelB)
ggplot(df, aes(x = x, y = y, col = labs)) + geom_point()

prd <- glm(as.factor(labs) ~ x + y, family = binomial('probit'), data = df)
prd_score <- predict(prd, type = 'response')
plot(roc(df$labs,prd_score))
auc(roc(df$labs,prd_score))

这是 roc 曲线图

这真的很令人沮丧,因为我在我的代码中找不到任何会产生这种问题的错误。谁能帮我指出我的代码中产生这种奇怪的 ROC 的任何错误,或者解释为什么 ROC 会变得像那样奇怪?

NB:请假设上面生成的数据集是训练数据,我想再次预测训练数据。

【问题讨论】:

    标签: r logistic-regression roc


    【解决方案1】:

    您的代码没有错误。

    你的数据集是一个典型的例子,不能用特征的线性组合来分开。因此,逻辑回归或 LDA 等线性分类方法在这里对您没有帮助。这就是您的 ROC 曲线看起来“奇怪”的原因,但这是完全正常的,只是告诉您您的模型无法分离数据。

    您需要研究非线性分类技术。鉴于数据的径向分布,我可以想象具有径向基内核的支持向量机 (SVM) 可以解决问题。

    require(e1071)
    
    # We need a numeric label for SVM regression
    labelA <- rep(0, nrow(a))
    labelB <- rep(1, nrow(b1))
    df$labsNum <- c(labelA,labelB)
    
    # We create a radial basis model
    svm_prd <- svm(labsNum ~ x + y, data = df, kernel = "radial", type = "eps-regression")
    svm_score <- predict(svm_prd)
    plot(roc(df$labs,prd_score))
    auc(roc(df$labs,prd_score))
    

    【讨论】:

    • 非常感谢您的回答!是的,分数根本没有区分班级。我还认为,当我们移动类别确定的阈值时,存在极端的敏感性和特异性权衡。这就是为什么 ROC 曲线看起来像 s 形的原因。呸!具有径向基础的 SVM 肯定会很好地工作。另外,我想即使是简单的非参数方法也有助于对这类分类问题(即 k-NN)进行分类。
    • k-NN 属于非线性分类器类,应该在这里表​​现良好。但是参数化与否无关。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2015-01-06
    • 1970-01-01
    • 2019-01-05
    • 2016-06-27
    • 1970-01-01
    • 2014-03-15
    • 2022-01-25
    相关资源
    最近更新 更多