【发布时间】:2019-03-17 06:42:28
【问题描述】:
我是数据科学的新手,正在学习估算和模型训练。以下是我在训练数据集时遇到的几个问题。请提供这些问题的答案。
- 假设我有一个包含 1000 个观测值的数据集。现在我一次性在完整的数据集上训练模型。我这样做的另一种方式,我将我的数据集分为 80% 和 20%,并首先以 80% 的数据训练我的模型,然后在 20% 的数据上训练我的模型。它是相同的还是不同的?基本上,如果我用新数据训练我已经训练过的模型,这意味着什么?
插补相关
另一个问题与插补有关。想象一下,我有一些船上乘客的数据集,其中只有头等舱乘客有舱。有一列包含客舱编号(分类),但很少有观察有这些客舱编号。现在我知道这个列很重要,所以我不能删除它,因为它有很多缺失值,所以大多数算法都不起作用。如何处理此类列的插补?
在估算验证数据时,我们是使用用于估算训练数据的相同值进行估算,还是再次根据验证数据本身计算估算值?
如何以字符串的形式估算数据,如票号(如 A-123)。该列很重要,因为第一个字母说明了乘客的类别。因此,我们不能放弃它。
【问题讨论】:
-
你不会估算客舱号码,因为有人要么有客舱号码,要么没有客舱号码,如果一个人没有客舱(号码),那么你应该用一个类别来标记它,例如。每个没有小屋的人都会获得 -1 的小屋编号。至于你的第一个问题,我不明白,你到底在做什么,为什么?
标签: machine-learning data-science training-data imputation test-data