使用时间戳训练分类模型答案

【问题标题】：Training the classfication model with the timestamp使用时间戳训练分类模型
【发布时间】：2020-10-16 17:44:21
【问题描述】：

我有一个理论问题。我有一个时间序列数据集（包含两个特征列：时间戳和温度），我想通过使用 Python 应用一些机器学习对数（KNN、随机森林、SVM 和朴素贝叶斯）来解决二进制分类问题。我的问题是：

是否可以使用时间戳特征来训练模型，还是会导致一些学习问题，例如过拟合？

我想知道你们是否有任何理论上的建议，无论在有或没有时间戳的情况下训练模型是否有效，或者在这种情况下最佳实践是什么。

【问题讨论】：

标签： machine-learning timestamp time-series classification

【解决方案1】：

时间戳是一个编码值，因此对于您拥有的大多数示例，该列通常有太多变化，因为它通常是每秒收集的，这完全是更改编码值。

推荐

将 timestamp 转换为 UTC-time 并将其值离散化某个阈值（seconds、minutes、. .etc.)，可以尝试k-means discretization，另一种差的方法，就是检查这个列中唯一值的个数（timestamp feature）如果它太小或太大，那么对于大多数算法和可能对某些算法集合太有害了。

对预测任务没有贡献的值可能会伤害树算法，并且即使使用随机森林也可能导致过度拟合 不会有太大帮助，而且它也伤害算法，它公式化 由 无约束 问题，如 逻辑回归（没有正则化约束）。然而对于SVM这样的算法，它是一个受限问题，并且它的性能可能不会因为使用无用的特征而改变>，但问题是，数据可能不够可分离，这可能导致模型极差（欠拟合）。

【讨论】：

非常感谢您的清晰解释，我只是想知道，这个建议是否也适用于分类问题。我提到这些值可能对造林任务没有用处，分类怎么样。
不客气，是的，同样的问题，这没什么区别
非常感谢，非常感谢。