预测下一个事件答案

【问题标题】：Predicting next event预测下一个事件
【发布时间】：2016-05-27 14:17:34
【问题描述】：

我有一组数据，其中有 3 个可能的事件。有 24 个特征会影响这三个事件中的哪一个会发生。我有包含所有 24 个特征的训练数据以及发生了哪些事件。

在已知所有 24 个特征值的情况下，我想要使用此数据预测接下来会发生三个事件中的哪一个。

你能推荐一些我应该用来解决这个问题的机器学习算法

【问题讨论】：

上一个事件会影响下一个事件的概率还是仅仅取决于特征？
@AlexanderBauer 是的，上一个事件影响下一个事件的概率。
所有事件发生的可能性相同吗？还是其中之一非常罕见？你有多少训练数据？
@AlexanderBauer 所以数据是关于用户回答问题的。可能的事件是 - 是/否/没有响应。可能是 (20%) 否(5%) 没有响应 (75%)。对于每个用户，我有大约 1 个月的数据，大约 200 个已经发生的事件。用例是仅当用户说“是”的概率很高时才向用户发送问题。所以我想预测一下这个概率。
好的，这 24 个特征是用户特征还是问题特征？

【解决方案1】：

这听起来像是监督学习中的一个典型分类问题。但是，您没有向我们提供足够的信息来建议特定的算法。

我们需要有关数据“形状”的统计信息：相对聚类和范围、特征之间的相关性等。到目前为止，关键点是您的类别很少 (3)，而特征比类别多得多。到目前为止，您考虑了什么？稍微备份一下，您研究过哪些无监督分类算法足够好使用？

我个人的方法是使用朴素贝叶斯或多类 SVM 来解决此类通用问题，并将生成的分类参数用作特征减少的输入。我也可以尝试使用一个隐藏层（或者没有，只有一个 FC 连接）的 CNN，然后检查权重以消除无关特征。

考虑到大维度，您也可以尝试使用 k-means 聚类来查看分类是否已经在 24 维空间中具有凝聚力。尝试 k=6;在大多数运行中，这将为您提供 3 个良好的集群和 3 个微小的异常值。

这会让你走向解决方案吗？

【讨论】：