简单地将数据框分成两部分,将 10% 保存到文件 (dataframe.to_csv(..)) 并将计算应用于第二个 df 中的 90% 会更容易和更清晰。
您通过计算一个新列来执行此操作,该列告诉您某行是否经过测试,然后沿着这个新列值将您的数据框分成两部分:
数据文件创建:
fn = "heart_disease.csv"
with open(fn,"w") as f:
# doubled the data provided
f.write("""Age,AL,SEX,DIAB,SMOK,CHOL,LAD,RCA,LM
65,0,M,n,y,220,80,75,20\n45,0.2,F,n,n,300,90,35,35\n66,-1,F,y,y,200,90,80,20
70,0.2,F,n,y,220,40,85,15\n80,1.1,M,y,y,200,90,90,25\n55,0,M,y,y,240,95,45,25
90,-1,M,n,y,350,35,75,20\n88,1,F,y,y,200,40,85,20\n50,1.1,M,n,n,220,55,30,30
95,-1,M,n,y,230,75,85,15\n30,1.1,F,n,y,235,75,20,30
65,0,M,n,y,220,80,75,20\n45,0.2,F,n,n,300,90,35,35\n66,-1,F,y,y,200,90,80,20
70,0.2,F,n,y,220,40,85,15\n80,1.1,M,y,y,200,90,90,25\n55,0,M,y,y,240,95,45,25
90,-1,M,n,y,350,35,75,20\n88,1,F,y,y,200,40,85,20\n50,1.1,M,n,n,220,55,30,30
95,-1,M,n,y,230,75,85,15\n30,1.1,F,n,y,235,75,20,30
""")
计划:
import pandas as pd
fn = "heart_disease.csv"
store_data = pd.read_csv(fn)
print(store_data)
import random
import numpy as np
percentage = 0.1
store_data["test"] = np.random.rand(len(store_data))
test_data = store_data[store_data.test <= percentage]
other_data = store_data[store_data.test > percentage]
print(test_data)
print(other_data)
输出:
# original data
Age AL SEX DIAB SMOK CHOL LAD RCA LM
0 65 0.0 M n y 220 80 75 20
1 45 0.2 F n n 300 90 35 35
2 66 -1.0 F y y 200 90 80 20
3 70 0.2 F n y 220 40 85 15
4 80 1.1 M y y 200 90 90 25
5 55 0.0 M y y 240 95 45 25
6 90 -1.0 M n y 350 35 75 20
7 88 1.0 F y y 200 40 85 20
8 50 1.1 M n n 220 55 30 30
9 95 -1.0 M n y 230 75 85 15
10 30 1.1 F n y 235 75 20 30
11 65 0.0 M n y 220 80 75 20
12 45 0.2 F n n 300 90 35 35
13 66 -1.0 F y y 200 90 80 20
14 70 0.2 F n y 220 40 85 15
15 80 1.1 M y y 200 90 90 25
16 55 0.0 M y y 240 95 45 25
17 90 -1.0 M n y 350 35 75 20
18 88 1.0 F y y 200 40 85 20
19 50 1.1 M n n 220 55 30 30
20 95 -1.0 M n y 230 75 85 15
21 30 1.1 F n y 235 75 20 30
# data with test <= 0.1
Age AL SEX DIAB SMOK CHOL LAD RCA LM test
3 70 0.2 F n y 220 40 85 15 0.093135
10 30 1.1 F n y 235 75 20 30 0.021302
# data with test > 0.1
Age AL SEX DIAB SMOK CHOL LAD RCA LM test
0 65 0.0 M n y 220 80 75 20 0.449546
1 45 0.2 F n n 300 90 35 35 0.953321
2 66 -1.0 F y y 200 90 80 20 0.928233
4 80 1.1 M y y 200 90 90 25 0.672880
5 55 0.0 M y y 240 95 45 25 0.136537
6 90 -1.0 M n y 350 35 75 20 0.439261
7 88 1.0 F y y 200 40 85 20 0.935340
8 50 1.1 M n n 220 55 30 30 0.737416
9 95 -1.0 M n y 230 75 85 15 0.461699
11 65 0.0 M n y 220 80 75 20 0.548624
12 45 0.2 F n n 300 90 35 35 0.679861
13 66 -1.0 F y y 200 90 80 20 0.195141
14 70 0.2 F n y 220 40 85 15 0.997854
15 80 1.1 M y y 200 90 90 25 0.871436
16 55 0.0 M y y 240 95 45 25 0.907141
17 90 -1.0 M n y 350 35 75 20 0.295690
18 88 1.0 F y y 200 40 85 20 0.970249
19 50 1.1 M n n 220 55 30 30 0.566218
20 95 -1.0 M n y 230 75 85 15 0.545188
21 30 1.1 F n y 235 75 20 30 0.217490
它是随机的,您可能会获得恰好 10% 的数据 - 或者您可以获得更少/超过 10% 的数据 - 数据越大,您越接近 10%。
您可以使用“派生”数据框将数据存储到测试数据和其他使用 df.to_csv 的数据中。
对于纯 pandas 解决方案,How do I create test and train samples from one dataframe with pandas? 与您的解决方案重复,但您似乎正在单独处理 csv,因此不确定它是否适用。