【问题标题】:Split dataset into 5~fold for cross-validation将数据集拆分为 5~fold 以进行交叉验证
【发布时间】:2021-12-16 12:57:53
【问题描述】:

我有一个要拆分为 5 倍(不同)的数据集,而不是传统的 80-20 拆分。

例如:

X = pd.DataFrame({'a': [1, 3, 5, 7, 4, 5, 6, 4, 7, 9],
                  'b': [3, 5, 6, 2, 4, 6, 7, 8, 7, 8],
                  'c': [2, 3, 4, 5, 6, 7, 8, 9, 2, 1]} )
y = [2, 3, 1, 1, 3, 2, 1, 3, 2, 2]

X

    a   b   c
0   1   3   2
1   3   5   3
2   5   6   4
3   7   2   5
4   4   4   6
5   5   6   7
6   6   7   8
7   4   8   9
8   7   7   2
9   9   8   1

这样我就有了X1,X2,..,X5 和对应的y1,y2,..,y5

【问题讨论】:

    标签: python pandas dataframe cross-validation k-fold


    【解决方案1】:

    使用来自sklearnKFold

    from sklearn.model_selection import KFold
    
    print(list(kf.split(X, y)))
    
    # Output:
    [(array([2, 3, 4, 5, 6, 7, 8, 9]), array([0, 1])),
     (array([0, 1, 4, 5, 6, 7, 8, 9]), array([2, 3])),
     (array([0, 1, 2, 3, 6, 7, 8, 9]), array([4, 5])),
     (array([0, 1, 2, 3, 4, 5, 8, 9]), array([6, 7])),
     (array([0, 1, 2, 3, 4, 5, 6, 7]), array([8, 9]))]
    

    【讨论】:

    • 啊,谢谢你。
    猜你喜欢
    • 1970-01-01
    • 2020-03-08
    • 2016-10-21
    • 2018-09-11
    • 1970-01-01
    • 2016-05-12
    • 2020-07-30
    • 2019-02-19
    • 2011-04-10
    相关资源
    最近更新 更多