【问题标题】:R: Predicting the probability of highest outcome [closed]R:预测最高结果的概率[关闭]
【发布时间】:2016-01-27 06:49:15
【问题描述】:

我对编码比较陌生 - 我一直在尝试将 R 作为一种爱好自学,并且我已经想到了这个问题。事实上,我只是创建了一个帐户来问这个问题! (我也是老师,所以我编了这个例子……)

数据:

                    Test 6  Test 5  Test 4  Test 3  Test 2  Test 1  Pre-test    Attendance
    Student 1               81      82      81      82      83      9           1
    Student 2               84      80      82      80      85      10          0
    Student 3               63      71      70      75      84      7           1
    Student 4               77      82      67      NA      NA      6           1
    Student 5               70      73      73      61      78      8           1
    Student 6               87      89      85      85      88      5           1
    Student 7               72      68      79      60      74      8           0
    Student 8               77      79      71      73      NA      7           1
    Student 9               73      66      70      70      85      10          1
    Student 10              60      62      65      67      61      9           1

任务:

我想使用数据来预测 Test 6 分数。嗯,这相对容易。相反,我想找出每个学生在考试 6 中获得全班最高分的概率。那么,根据这些数据,学生 1 在测试 6 中得分最高的概率是多少?学生2?等等……

我不知道 R 中的哪个函数会为我做这件事。有什么想法吗?

谢谢!

附:是否可以这样做为每个学生使用不同数量的预测器? (请注意我在数据中的 NA。)那将是理想的。或者,我是否首先需要清除 NA,以便每个人都有 7 个预测变量?

【问题讨论】:

  • 您可能正在寻找的是回归介绍,而不是R 特定的答案。试试这个 (coursera.org/learn/machine-learning) Coursera 课程
  • 一个简单的朴素贝叶斯模型可能适用于这种情况。网络上和有关该主题的文献中有很多资源。无需参加课程,

标签: r probability prediction


【解决方案1】:

这里有两个不同的问题。 (1) 对于每个学生,计算他们在下一次考试中的分数的概率分布,给定他们之前考试的任何分数。对于这一部分,他们没有必要在相同的测试中都有分数。 (2) 给定第一步的概率分布,对于每个学生,计算他们的分数高于任何其他学生的概率。我想要小心你必须考虑关系,但也许你现在可以忽略它。

对于 (1),您可以应用许多回归模型中的任何一个。您需要将输出表示为概率分布;最简单的是假设高斯误差并使用残差(剩余的,未计算的)方差。更复杂的方法是可能的。

对于 (2),这是一个相当简单的概率计算。您要查找的主题称为“订单统计”。

您可能会在 stats.stackexchange.com 上对这个问题更感兴趣。

【讨论】:

    猜你喜欢
    • 2020-07-19
    • 1970-01-01
    • 1970-01-01
    • 2019-09-03
    • 1970-01-01
    • 1970-01-01
    • 2016-05-23
    • 2023-03-16
    相关资源
    最近更新 更多