建模:

前两个task中学会了怎么清洗数据准备数据,相当于得到了喂给模型的建模数据。

判断是否存活,所以是个监督问题。

下面这个图实在是有灵性。

 

【动手学数据分析】Task03笔记

 

【思考】

  • 划分数据集的方法有哪些? 留出法、k折验证法
  • 为什么使用分层抽样,这样的好处有什么?分层抽样的精度比简单随机抽样的精度高

单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,一般要采用若干次随机划分、重复进行模型评估后取平均值作为留出法的评估结果。

 

参数说明:train_test_split (*arrays,test_size, train_size, rondom_state=None, shuffle=True, stratify=None)

  • arrays:特征数据和标签数据(array,list,dataframe等类型),要求所有数据长度相同。
  • test_size / train_size: 测试集/训练集的大小,小数表示比例 / 整数表示数据个数。
  • random_state:随机种子(一个整数),random_state相同划分结果也相同。
  • shuffle:是否打乱数据的顺序,再划分,默认True。
  • stratify:none或者array/series类型的数据,表示进行分层采样的依据。 

为什么线性模型可以进行分类任务,背后是怎么的数学关系?

设定阈值?概率问题

对于多分类问题,线性模型是怎么进行分类的?

也是算概率?不太记得了

评估:

评价评的是模型的泛化能力。

“交叉验证(cross-validation)是一种评估泛化性能的统计学方法,它比单次划分训练集和测试集的方法更加稳定、全面。”

k折越多的情况下会带来什么样的影响?

偏差和方差的问题

相关文章:

  • 2021-09-18
  • 2021-12-28
  • 2021-06-07
  • 2022-12-23
  • 2021-08-04
  • 2021-10-04
  • 2021-11-07
  • 2022-12-23
猜你喜欢
  • 2021-08-29
  • 2021-11-16
  • 2022-12-23
  • 2021-04-16
  • 2022-01-22
  • 2021-04-12
相关资源
相似解决方案