【问题标题】:Are some data sets just not predictive?某些数据集是否无法预测?
【发布时间】:2017-12-11 03:20:26
【问题描述】:

某些类型的数据集是否不能预测?

我自己当前的现实生活示例:我的目标是创建一个用于交叉销售保险产品的预测模型。例如。从汽车保险到健康保险。

我的数据集主要由特征数据组成,例如他们居住的州、年龄、性别、汽车类型等......

我尝试了各种不同的模型,例如 XGboosted Trees 到正则化逻辑回归,而 AUC 不能超过 0.65。


所以这导致我 - 某些类型的数据集只是不能预测吗? 您如何帮助利益相关者理解这一点?

【问题讨论】:

  • 理论观点:尝试预测随机数据(例如 0 类和 1 类)并优于随机猜测(50%)。你不能。

标签: machine-learning analytics data-analysis predictive


【解决方案1】:

某些数据集可能不是很有预测性。特别是如果您缺少导致大部分差异的变量。如果不与主题专家交谈,很难说是否是这种情况。话虽如此,模型很好而且很好,但我也会确保您花费大量时间来设计功能。通常,以正确方式表示数据的时间可能是工作模型和坏模型之间的区别,尤其是在树模型中。

【讨论】:

  • 我同意你在工程特性方面的观点。在我看来,特征工程行为特征比高级特征要容易得多。 @Tophat
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-02-05
相关资源
最近更新 更多