本文使用一个简单的例子来让大家了解机器学习如何使用,如何使用随机森林算法来进行数据预测。
1.准备数据
成年人数据集 点击下载
2.导入数据集
############################# 随机森林实例 ####################################### #导入pandas库 import pandas as pd #导入数据集拆分工具 from sklearn.model_selection import train_test_split from sklearn import tree,datasets #用pandas打开csv文件 data = pd.read_csv('adult.csv',header=None,index_col=False,names=['年龄','单位性质','权重','学历','受教育时长','婚姻状况','职业','家庭情况','种族','性别','资产所得','资产损失','周工作时长','原籍','收入']) #为了方便展示,我们选取其中一部分数据 data_lite = data[['年龄','单位性质','学历','性别','周工作时长','职业','收入']] #下面看一下数据的前五行是不是我们想要的结果 display(data_lite.head())