具有二元结果预测的多时间序列答案

【问题标题】：Multiple Time Series with Binary Outcome Prediction具有二元结果预测的多时间序列
【发布时间】：2020-12-16 08:14:55
【问题描述】：

我首先要说我对神经网络及其操作非常陌生。我已经阅读了一些资料，使用了一些基于云的工具（Cortana 和 AWS），但除此之外，我对算法、神经网络类型等不太擅长......

我正在寻找有关我可以使用哪些系统/工具/算法来实现以下目标的建议。

问题描述

我有一个数据集，其中包含许多用户的时间序列数据。数据集可以包含可变数量的唯一用户（最大概率为 150），每个用户有 4 个不同的时间序列数据集，用于四个不同的变量。下面的示例数据集

V = 变量

用户 |时间 | V1 | V2 | V3 | V4

1 |上午 12 点 | 13 | 1045 | 12.2 | 52.4

1 | 12.01am | 12 |第1565章11.9 | 50.3

2 |上午 12 点 | 2 | 15434 | 1.93 | 47.2

2 | 12.01am | 2.02 | 17434 | 1.98 | 43.1

等 x 个用户和每个用户的数百个数据点。

所需输出

通过解析数据，我希望能够训练系统根据输入为用户返回二进制 TRUE 或 FALSE，或者用户为 TRUE 的概率百分比。

二进制实际上是 TRUE 或 FALSE 结果。所有 10 个用户中只能有一个 TRUE。我认为恢复 TRUE 的百分比可能是最简单的形式？我可能错了。

输入格式

终点是要有一个 API，我可以将数据集发送到它并返回用户及其概率（或二进制 TRUE | FALSE 结果）。

系统

我希望能够在第 3 方服务上执行此操作，而不是必须构建自己的系统来进行处理，但这不是必需的。

训练数据

我有多年的数据能够训练系统，数十万真实用户集等等。

总结一下

寻求有关从多个时间序列数据集中预测二元结果的内容和方法的建议。

非常感谢这里的任何帮助和指导。

谢谢

罗斯

【问题讨论】：

【解决方案1】：

我正在研究一个类似的问题（我也不是专家），但我会分享我的方法，以防它回答你问题的“什么”部分。

我的解决方案是转换数据集，所以我最终遇到了一个可以用传统分类算法（随机森林、提升等）解决的问题

这种方法需要对数据进行标记。转换后的数据集的每一行将代表与训练数据集中每个 TRUE 或 FALSE 结果相关的信息。每行将是一个独特的事件，并且将具有：

每组 p 列将由时间 t（记录该行的响应的时间）的变量、时间 t-1 (lag1) 的变量、...和时间的变量组成时间 t-T (lagT)。

例子：

原始数据集（我只保留了 V1 和 V2 并添加了一个结果变量）

User	Time	V1	V2	outcome
1	12.00am	13	1045	FALSE
1	12.01am	12	1565	TRUE

转换后的数据集

ID	V1_lag1	V1_lag0	V2_lag1	V2_lag0	outcome
event_id	13	12	1045	1565	TRUE

通过此设置，您可以拟合一个模型，该模型将根据在时间 t 评估的 V1 和 V2 以及在 lag1 (t-1min) 评估的 V1 和 V2 预测新观察在时间 t 为 TRUE 的概率。

您还可以创建可以更好地描述变量的新功能（请参阅Features for time series classification）。

如果变量显示季节性模式，您应该以某种方式合并季节性：

ID	V1_lag1	V1_lag0	V2_lag1	V2_lag0	day	hour	outcome
event_id	13	12	1045	1565	wed	12am	TRUE

【讨论】：