【发布时间】:2019-07-21 11:58:24
【问题描述】:
我正在尝试在不平衡的数据集 (~1:4) 上运行随机森林分类器。
我正在使用 imblearn 的方法如下:
from imblearn.ensemble import BalancedRandomForestClassifier
rf=BalancedRandomForestClassifier(n_estimators=1000,random_state=42,class_weight='balanced',sampling_strategy='not minority')
rf.fit(train_features,train_labels)
predictions=rf.predict(test_features)
使用来自 scikit learn 的 RepeatedStratifiedKFold 在交叉验证方法中执行训练和测试集的拆分。
但是,我想知道是否也需要平衡测试集才能获得合理的准确度分数(敏感性、特异性等)。我希望你能帮我解决这个问题。
非常感谢!
【问题讨论】:
标签: python random-forest imblearn