LDA 解释答案 - 爱码网

【问题标题】：LDA interpretationLDA 解释
【发布时间】：2017-02-26 11:57:15
【问题描述】：

我使用 HMeasure 包将 LDA 纳入我的信用风险分析中。我有 11000 个 obs，我选择了年龄和收入来进行分析。我不知道如何解释 LDA 的 R 结果。所以，我不知道我是否根据信用风险选择了最佳变量。我在代码下方向您展示。

lda(default ~ ETA, data = train)

Prior probabilities of groups:
       0         1 
0.4717286 0.5282714 

Group means:
      ETA
0 34.80251
1 37.81549

Coefficients of linear discriminants:
         LD1
ETA 0.1833161

lda(default~ ETA + Stipendio,  train)

Call:
lda(default ~ ETA + Stipendio, data = train)

Prior probabilities of groups:
       0         1 
0.4717286 0.5282714 

Group means:
      ETA Stipendio
0 34.80251  1535.531
1 37.81549  1675.841

Coefficients of linear discriminants:
                 LD1
ETA       0.148374799
Stipendio 0.001445174

lda(default~ ETA, train)
ldaP <- predict(lda, data= test)

ETA = AGE 且 STIPENDIO =INCOME

非常感谢！

【问题讨论】：

标签： r lda risk-analysis linear-discriminant

【解决方案1】：

LDA 使用每个类的均值和方差来在它们之间创建线性边界（或分离）。此边界由系数界定。

您有两种不同的模型，一种取决于变量ETA，另一种取决于ETA 和Stipendio。

您首先看到的是Prior probabilities of groups。这些概率是您的训练数据中已经存在的概率。 IE。 47.17% 的训练数据对应于评估为 0 的信用风险，52.82% 的训练数据对应于评估为 1 的信用风险。（我假设 0 表示“无风险”，1 表示“有风险”）。这些概率在两个模型中是相同的。

您可以看到的第二件事是组均值，它是每个类别中每个预测变量的平均值。这些值可能表明变量 ETA 对风险信用 (37.8154) 的影响可能比对非风险信用 (34.8025) 的影响稍大。在您的第二个模型中，变量 Stipendio 也会出现这种情况。

第一个模型中ETA的计算系数为0.1833161。这意味着两个不同类之间的边界将由以下公式指定：

y = 0.1833161 * ETA

这可以由以下line 表示（x 表示变量 ETA）。 0 或 1 的信用风险将根据它们在哪一侧进行预测。

您的第二个模型包含两个因变量，ETA 和 Stipendio，因此类之间的边界将由以下公式分隔：

y = 0.148374799 * ETA + 0.001445174 * Stipendio

如您所见，此公式表示plane。（x1 代表 ETA 和 x2 代表 Stipendio）。与之前的模型一样，这个平面代表了风险信用和非风险信用之间的差异。

在第二个模型中，ETA 系数远大于Stipendio 系数，表明前一个变量对信用风险的影响大于后一个变量。

我希望这会有所帮助。

【讨论】：