【发布时间】:2021-04-29 21:35:36
【问题描述】:
我正在处理 2020 年每分钟汇总的大型时间序列数据集。该数据集从正在监测热电厂设备的传感器获取值。传感器测量温度、压力、电流等值,并根据每次读数更新数据集。
我希望检测由传感器引起的数据集中的错误。当来自传感器的输入停留在某个值时,就会出现来自传感器的错误类型之一。例如,当我们知道它应该波动时,其中一个温度传感器连续 20 分钟报告了 71.46 的值。我正在尝试在我当前的数据集中找到这些错误,并希望训练一个模型来检查未来数据集中的重复值。
理想情况下,我希望能够在数据集中找到一个值连续重复 5 次或更多次的时间窗口。
数据是pandas时间数据框的形式,内核是python 3.6。如果您有任何建议,请告诉我。
【问题讨论】:
-
你可以试试
.duplicated() -
嗨!与 Stack Overflow 相比,您的问题听起来更适合 Cross Validated (stats.stackexchange.com) - 它要求提供方法建议,因此可能会在那里得到更好的回应
标签: python pandas time-series error-detection