【发布时间】:2020-11-28 10:29:57
【问题描述】:
我遇到了一个问题,我需要分析电影的长度、电影的价格和它在视频流媒体平台上的销售之间的关系。现在我有两个选择来量化销售作为我的因变量:
- 用户是否最终购买了电影
- 销售率(购买电影的人数 / 观看预告片的人数)
如果我使用销售率,我基本上会使用线性回归
selling rate= beta_0 + beta_1*length + beta_2*price + beta_3*length*price
但如果我被要求使用选项 1,其中我的响应是二进制输出,并且我假设我需要切换到逻辑回归,那么标准错误将如何变化?标准误会被低估吗?
【问题讨论】:
-
你也可以对二元结果应用线性回归,这被称为线性概率模型,即你会得到很好的概率。不管怎样,像这样纯粹的统计问题应该在Cross Validated上提出。
-
您应该在这两种情况下都使用 glm(我会先尝试准二项式逻辑回归),因为在这两种情况下响应都受到限制。对于第二个示例,您也可以使用 beta 回归。
-
即使您切换到逻辑回归模型,您仍然会做出一些无根据的假设。人们购买电影的比率不太可能与其长度呈线性关系。如果你发现两小时电影的购买率为 60%,一小时电影的购买率为 40%,你会高兴地得出 20% 的人会购买零时长电影的结论吗?非线性模型可能更现实
标签: r linear-regression logistic-regression