从回归方程的参数估计中计算概率答案

【问题标题】：Calculating probability from parameter estimates from a regression equation从回归方程的参数估计中计算概率
【发布时间】：2014-01-02 18:44:34
【问题描述】：

编程+统计问题：

背景： 我目前正在构建一个模型模拟（基于代理的模型），其中每个代理（阅读：人）作为一系列变量（即性别、种族、军事地位、收入等级、教育等）。

这不是一个家庭作业问题，这是我在工作中尝试解决的问题，因此我不必对所有内容进行硬编码，并且可以更轻松、更快地实施对我的模型的更改。

变量基本上分解如下：

gender: 0 = female, 1 = male
race:   1 = white, 2 = black, 3 = hispanic, 4 = other
marital status: 1 = married, 2 = divorced, 3 = no married
income: 1 = <20k, 2 = 20k-75k, 3= 75+k
education:  1 = <HS, 2 = HS, 3 = >HS

在我的数据集中，我想预测例如吸烟状态（0 = 非吸烟者，1 = 吸烟者）。
简单，做一个逻辑回归。主效应编程不会太困难，因为总体模型如下：

SmokingStatus = b_0 + b_1(gender1) + b_2(race2) + b_3(race3) + b_4(race4) + ... + e

问题 1： 从上面的等式可以看出，分类变量创建了 k-1 个虚拟变量。本质上，stats 程序将创建以下虚拟变量（以 race 为例）：race2、race3、race4。并且每个都有一个 beta 估计值（即相对于参考组 race1 的 ln(OR)）。

问题 1： 我将如何编写我的 java 程序来从回归输出（我拥有的表是 SAS 输出）计算吸烟状态的概率，而不在我的代理类中创建相应的虚拟变量。

问题 2： 当我的模型中有交互项时，这个问题会变得更糟，因为参数估计是每个变量的虚拟变量的组合。例如，在上述人口模型中 + 性别和种族之间的交互项将是：

SmokingStatus = b_0 + b_1(gender1) + b_2(race2) + b_3(race3) + b_4(race4) + B_5(gender1race2) + B_6(gender1race3) + B_7(gender1race4) ... + e

问题 2： 鉴于这种增加的复杂性，最好的方法是什么？

我的最终目标：我正在尝试编写一个 java 程序，该程序将接收一个（csv）变量文件及其参数估计值，并且本质上是“插入值”来为我的响应变量（例如吸烟状态）生成概率。

是的，我知道在我插入所有值后，我必须通过以下方式转换我的答案：

Math.exp(logitP)/(1 + Math.exp(logitP))

我当前（也是很糟糕）的解决方案包括将所有虚拟变量初始化为 0，然后执行一系列 if 语句来分配值 1，然后将所有虚拟变量乘以相应的 beta 估计值（许多术语将等同于到 0)

例如：

    int race2 = 0;
    int race3 = 0;
    int race4 = 0;
    int sex0 = 0;

    // race
    if (alcoholAgent.getRace() == 2) {race2 = 1;}
    else if (alcoholAgent.getRace() == 3) {race3 = 1;}
    else if (alcoholAgent.getRace() == 4) {race4 = 1;}

    // sex female is reference group == 0
    if (alcoholAgent.getGender() == 1) {sex0 = 1;}

    // age2-6_race2-4
    if ((alcoholAgent.getAgeCat() == 2) && (alcoholAgent.getRace()==2)) {age2race2 = 1;}
    else if ((alcoholAgent.getAgeCat() == 2) && (alcoholAgent.getRace()==3)) {age2race3 = 1;}
    else if ((alcoholAgent.getAgeCat() == 2) && (alcoholAgent.getRace()==4)) {age2race4 = 1;}

    else if ((alcoholAgent.getAgeCat() == 3) && (alcoholAgent.getRace()==2)) {age3race2 = 1;}
    else if ((alcoholAgent.getAgeCat() == 3) && (alcoholAgent.getRace()==3)) {age3race3 = 1;}
    else if ((alcoholAgent.getAgeCat() == 3) && (alcoholAgent.getRace()==4)) {age3race4 = 1;}

    else if ((alcoholAgent.getAgeCat() == 4) && (alcoholAgent.getRace()==2)) {age4race2 = 1;}
    else if ((alcoholAgent.getAgeCat() == 4) && (alcoholAgent.getRace()==3)) {age4race3 = 1;}
    else if ((alcoholAgent.getAgeCat() == 4) && (alcoholAgent.getRace()==4)) {age4race4 = 1;}

    else if ((alcoholAgent.getAgeCat() == 5) && (alcoholAgent.getRace()==2)) {age5race2 = 1;}
    else if ((alcoholAgent.getAgeCat() == 5) && (alcoholAgent.getRace()==3)) {age5race3 = 1;}
    else if ((alcoholAgent.getAgeCat() == 5) && (alcoholAgent.getRace()==4)) {age5race4 = 1;}

    else if ((alcoholAgent.getAgeCat() == 6) && (alcoholAgent.getRace()==2)) {age6race2 = 1;}
    else if ((alcoholAgent.getAgeCat() == 6) && (alcoholAgent.getRace()==3)) {age6race3 = 1;}
    else if ((alcoholAgent.getAgeCat() == 6) && (alcoholAgent.getRace()==4)) {age6race4 = 1;}

【问题讨论】：

标签： java statistics

【解决方案1】：

任何利用分类变量数值的模型充其量都是误导。在什么意义上，race=2“大于”race=1？当然，毫无意义。我的建议是放弃逻辑回归。

由于分类变量没有真正的排序，因此您能做的最好的事情就是查找表。只需制作一个以分类变量为索引的多维表，然后将落入表中每个 bin 的示例进行计数，即可找到每个输出类别中示例的比例。该比例是输入变量组合的输出类别的概率。

查找表会考虑变量的所有交互作用。缺点是表格元素的数量可能非常大。您可能能够将输出类别的概率计算为较小表（即每个表的索引较少）的概率乘积。这就是所谓的“朴素贝叶斯”模型；它假设输入变量（或它们的组）在给定输出类别的情况下是独立的。

【讨论】：

谢谢！查找表/哈希表正是我实现的。我现在正在慢慢处理代码，当它准备好被外界看到时，我会发布 github 链接。另外：你是说你不能在逻辑回归中使用名义分类变量作为预测变量吗？我在文献中被教导和看到过。
@DanielChen 在逻辑回归中使用名义类别变量的普通数值作为预测变量肯定是不正确的。是的，您可以获得结果；你不会遇到任何错误，你只会得到一个毫无意义的结果。使用二进制变量数组重新编码数值（即重新编码 0、1、2、3 成(0, 0), (1, 0), (0, 1), (1, 1)) 并将它们用作输入，但那是一团糟。没有比查找表更好的了。
@DanielChen 带有重新编码输入的逻辑回归很方便，并且至少大致正确，如果您已经将 LR 用于其他目的；这可能就是它被教授的原因。
啊，是的，这样做是不正确的，我误解了你。这就是为什么我说的问题变得非常复杂，因为你会创建一堆虚拟变量
首先尝试实施解决方案 v0.1.0：github.com/chendaniely/java-regression-pcalculator