【发布时间】:2021-02-01 03:54:55
【问题描述】:
我正在处理时间序列数据中的重复模式。我的目标是将每个模式归类为 1,将不遵循该模式的任何内容归类为 0。该模式在每两个峰之间重复,如下图所示。
模式不一定在样本量上是固定的,而是保持在近似样本量内,比如 500 个样本 +-10%。峰的高度可以改变。随机信号(我称之为随机,但基本上是指不遵循模式形状)也可以改变值。
数据来自传感器。模式是设备正常工作的时候。如果设备出现故障,那么我将看不到这些模式,并且会得到类似于我在图像中显示的 0 类的东西。
到目前为止,我所做的是构建逻辑回归模型。以下是我的数据准备步骤:
-
在每两个连续峰值之间获取数据,将其重新采样到 100 个样本的固定大小,将数据缩放到 [0-1]。这是第 1 课。
-
对山谷之间的数据重复第 1 步并将其称为 0 类。
-
我产生了一些噪音,并在 500 个样本上重复了第 1 步,以构建额外的 0 类数据。
下图显示了我对测试数据集的预测。对噪声块的预测不是很好。我担心在真实数据中我可能会得到更多的误报。关于如何改进我的预测的任何想法?没有可用的 0 类数据时有什么更好的方法吗?
我见过类似的问题here。我对隐马尔可夫模型的理解有限,但我相信它是用来预测未来数据的。我的目标是对整个数据中包含 500 个样本的滑动窗口进行分类。
【问题讨论】:
标签: machine-learning time-series classification logistic-regression pattern-recognition