【问题标题】:Training the classfication model with the timestamp使用时间戳训练分类模型
【发布时间】:2020-10-16 17:44:21
【问题描述】:

我有一个理论问题。我有一个时间序列数据集(包含两个特征列:时间戳和温度),我想通过使用 Python 应用一些机器学习对数(KNN、随机森林、SVM 和朴素贝叶斯)来解决二进制分类问题。我的问题是:

是否可以使用时间戳特征来训练模型,还是会导致一些学习问题,例如过拟合?

我想知道你们是否有任何理论上的建议,无论在有或没有时间戳的情况下训练模型是否有效,或者在这种情况下最佳实践是什么。

【问题讨论】:

    标签: machine-learning timestamp time-series classification


    【解决方案1】:

    时间戳是一个编码值,因此对于您拥有的大多数示例,该列通常有太多变化,因为它通常是每秒收集的,这完全是更改编码值。


    推荐

    timestamp 转换为 UTC-time 并将其值离散化某个阈值(secondsminutes、. .etc.),可以尝试k-means discretization,另一种的方法,就是检查这个列中唯一值的个数(timestamp feature)如果它太小太大,那么对于大多数算法和可能对某些算法集合太有害了。


    预测任务没有贡献的值可能会伤害树算法,并且即使使用随机森林也可能导致过度拟合 不会有太大帮助,而且它也伤害算法,它公式化无约束 问题,如 逻辑回归(没有正则化约束)。然而对于SVM这样的算法,它是一个受限问题,并且它的性能可能不会因为使用无用的特征而改变>,但问题是,数据可能不够可分离,这可能导致模型极差(欠拟合)。

    【讨论】:

    • 非常感谢您的清晰解释,我只是想知道,这个建议是否也适用于分类问题。我提到这些值可能对造林任务没有用处,分类怎么样。
    • 不客气,是的,同样的问题,这没什么区别
    • 非常感谢,非常感谢。
    猜你喜欢
    • 2023-03-13
    • 2018-02-13
    • 2017-08-19
    • 2019-01-09
    • 2020-10-05
    • 2021-07-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多