【发布时间】:2019-08-03 23:57:05
【问题描述】:
我正在学习使用 Scikit 学习的动手机器学习教科书和第 2 章,作者建议使用以下代码在 train_test_split 期间对其中一个特征(收入组)进行分层:
strat_train_set, strat_test_set = train_test_split(housing,
test_size=0.2,random_state=42,stratify=housing["income_cat"])
据我了解,所有属性(包括目标)在训练和测试数据集中均等表示是很重要的。
在上面的以下代码中,我们不能保证其他属性按照各自列中的比率进行拆分。不是所有的属性都应该分层拆分吗?
正确吗?还是我误解了代码
谢谢
【问题讨论】:
-
您可能想阅读这个问题,因为它回答了您的问题:stats.stackexchange.com/questions/250273/…
-
对于具有连续数据类型(如 float)的列,“比率”是多少?
标签: python pandas machine-learning training-data