【问题标题】:Relationship between logistic regression and linear regression逻辑回归与线性回归的关系
【发布时间】:2020-11-28 10:29:57
【问题描述】:

我遇到了一个问题,我需要分析电影的长度、电影的价格和它在视频流媒体平台上的销售之间的关系。现在我有两个选择来量化销售作为我的因变量:

  1. 用户是否最终购买了电影
  2. 销售率(购买电影的人数 / 观看预告片的人数)

如果我使用销售率,我基本上会使用线性回归 selling rate= beta_0 + beta_1*length + beta_2*price + beta_3*length*price

但如果我被要求使用选项 1,其中我的响应是二进制输出,并且我假设我需要切换到逻辑回归,那么标准错误将如何变化?标准误会被低估吗?

【问题讨论】:

  • 你也可以对二元结果应用线性回归,这被称为线性概率模型,即你会得到很好的概率。不管怎样,像这样纯粹的统计问题应该在Cross Validated上提出。
  • 您应该在这两种情况下都使用 glm(我会先尝试准二项式逻辑回归),因为在这两种情况下响应都受到限制。对于第二个示例,您也可以使用 beta 回归。
  • 即使您切换到逻辑回归模型,您仍然会做出一些无根据的假设。人们购买电影的比率不太可能与其长度呈线性关系。如果你发现两小时电影的购买率为 60%,一小时电影的购买率为 40%,你会高兴地得出 20% 的人会购买零时长电影的结论吗?非线性模型可能更现实

标签: r linear-regression logistic-regression


【解决方案1】:

您的 SE 将具有不同的规模,但如果您对连续结果有很大的影响,那么您很有可能通过二元逻辑得到相同的推论。逻辑几乎“丢弃”了响应中的所有可变性,因此它的功效相对较低。正如 SweetSpot 所说,由于结果范围的限制,您应该将此视为一个 glm 问题。也就是说,您不想要一个可以给您负计数/比率的模型。方差估计也需要注意。考虑将 glm 与 family = binomial 一起用于是/否售出结果,family = poisson 用于计数/率。 logisticpoissonnegative binomial 回归的 UCLA 网页是一个很好的起点。对于想要清晰写作而无需证明的人来说,最好的书可能是 Agresti 的 Introduction to Categorical Data Analysis

【讨论】:

    猜你喜欢
    • 2020-07-03
    • 2021-11-23
    • 2012-08-22
    • 1970-01-01
    • 2021-01-03
    • 1970-01-01
    • 2018-12-09
    • 2018-05-04
    • 1970-01-01
    相关资源
    最近更新 更多