【问题标题】:Filling in Missing Values in Python在 Python 中填充缺失值
【发布时间】:2021-10-03 12:59:10
【问题描述】:

我有一个看起来像这样的数据框。

Subject Level Age Dosage 
1       Beta  27  2
2       Alpha 19  3
3       Alpha 13  5

还有一个看起来像这样的数据框。

Subject Level Age
4       Beta  18
5       Beta  26
6       Alpha 17
7       Beta  27

我想要的结果是第二个数据框,其中预测的剂量数看起来像这样。

Subject Level Age Pred_Dosage
4       Beta  18  4
5       Beta  26  3
6       Alpha 17  1
7       Beta  27  3

基本上,我想使用第一个数据帧来预测第二个数据帧的剂量字段值。我在想随机森林回归器是正确的方法,但是还有其他方法吗?

【问题讨论】:

  • 是的,只有两个预测变量 - 水平和年龄。具有剂量值的 df 有 3000 行,需要预测剂量值的 df 有 2000 行。你能给我一个回归算法的例子吗?也许是随机森林?
  • 这个问题与编程无关,更适合stats.stackexchange.comdatascience.stackexchange.com

标签: python machine-learning regression random-forest


【解决方案1】:

由于要预测的剂量是一个定量变量,因此您需要一个回归算法。其中一些是可用的,例如请参阅here 您还应该提及训练数据框中有多少行可用。此外,您应该确认只有 2 个预测变量(级别和年龄)。这些因素可能会影响算法的选择。

您也可以先进行单变量分析,以确定剂量与水平和年龄之间是否存在显着关系。剂量是由一个、两个或一个预测变量预测的,都可能会影响您的模型。

还应该明确每一行属于一个不同的主题,并且没有重复测试主题。

只有一个分类预测变量和一个数字预测变量,还可以制作散点图,其中 X 轴为年龄,Y 轴为剂量。 Alpha 和 Beta 的点可以用不同的颜色着色,并且可以分别为 Alpha 和 Beta 绘制回归线。这也将有助于创建一个好的模型。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2016-11-03
    • 2014-03-02
    • 2012-10-25
    • 1970-01-01
    • 2016-08-26
    • 1970-01-01
    相关资源
    最近更新 更多