【发布时间】:2019-12-26 05:24:31
【问题描述】:
我需要对多变量时间序列数据进行建模,以预测很少为 1 的二进制目标(不平衡数据)。 这意味着我们要建模基于一个特征是二元(爆发),很少是1? 所有的特征都是二元的,很少是 1。 建议的解决方案是什么?
此功能对基于以下成本函数的成本函数产生影响。如果成本与以下相同,我们想知道是否准备好。
问题定义: 基于爆发的模型,很少为 1。
为避免疾病爆发做好准备或未做好准备,爆发的成本是准备的20倍
每天(次日)的费用: 成本=20*爆发*!准备+准备
Model:prepare(prepare for next day)for哪几天爆发?
问题:
建立模型来预测疫情?
报告每年的成本估算
csv file is uploaded 和数据是一天结束 csv 文件包含行,每行是一天,具有不同的特征,其中一些是二进制的,最后一个特征是爆发,很少是 1,并且是考虑成本的主要特征。
【问题讨论】:
-
你的目标似乎是监督预测,为什么要使用标签聚类分析?
-
[stackoverflow.com/users/1060350/anony-mousse] 因为没有关于准备的信息
-
但“星期一”也是如此。什么会阻止集群聚集在星期一与其他日子?你有一个特定的情况,即使在不被观察的情况下,你也应该使用定制的模型。
-
但准备在成本函数中很重要
-
那现在就优化代价函数?
标签: python-3.x feature-selection multiclass-classification imbalanced-data