【SVM】kaggle之澳大利亚天气预测

项目目标 由于大气运动极为复杂,影响天气的因素较多,而人们认识大气本身运动的能力极为有限,因此天气预报水平较低,预报员在预报实践中,每次预报的过程都极为复杂,需要综合分析,并预报各气象要素,比如温度、降水等。本项目需要训练一个二分类模型,来预测在给定天气因素下,城市是否下雨。 数据说明 本数据包含了 ... »

【决策树】泰坦尼克号幸存者预测项目

项目目标 泰坦尼克号的沉没是历史上最著名的海南事件之一,在船上的2224名乘客和机组人员中,共造成1502人死亡。本次项目的目标是运用机器学习工具来预测哪些乘客能够幸免于难。 项目过程 导入并探索数据 处理缺失值,删除与预测无关的特征 将分类变量转换为数值型变量 实例化模型并进行交叉验证 模型预测 ... »

sklearn中的pipeline实际应用

#####前面提到,应用sklearn中的pipeline机制的高效性;本文重点讨论pipeline与网格搜索在机器学习实践中的结合运用: ##结合管道和网格搜索以调整预处理步骤以及模型参数 一般地,sklearn中经常用到网格搜索寻找应用模型的超参数;实际上,在训练数据被送入模型之前,对数据的预处 ... »

sklearn中的pipeline的创建与访问

#####前期博文提到管道(pipeline)在机器学习实践中的重要性以及必要性,本文则递进一步,探讨实际操作中管道的创建与访问。 已经了解到,管道本质上是一定数量的估计器连接而成的数据处理流,所以成功创建管道的唯一要求就是:管道中所有估计器必须具有fit()和transform()方法,但管道中最 ... »

sklearn中的pipeline

在使用sklean处理一个机器学习实例时,可能会经过数据缩放、特征合并以及模型学习拟合等过程;并且,当问题更为复杂时,所应用到的算法以及模型则较为繁杂。 与此同时,经过实践发现,在忽略一些细节的前提下,可以通过将这些数据处理步骤结合成一条算法链,以更加高效地完成整个机器学习流程;由此,管道(pipe ... »

100天搞定机器学习|Day59 主成分分析(PCA)原理及使用详解

数学概念 方差:用来衡量随机变量与其数学期望(均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。 (Var(X)=frac{1}{n}sum(x_i-μ)^2) 协方差:度量两个随机变量关系的统计量,协方差为0的两个随机变量是不相关的。 (cov ... »

Seq2Seq原理详解

一、Seq2Seq简介 seq2seq 是一个Encoder–Decoder 结构的网络,它的输入是一个序列,输出也是一个序列。Encoder 中将一个可变长度的信号序列变为固定长度的向量表达,Decoder 将这个固定长度的向量变成可变长度的目标的信号序列。 很多自然语言处理任务,比如聊天机器人, ... »

相关性分析

相关性分析 相关性分析解决解决以下两个问题: 判断两个或多个变量之间的统计学关联; 如果存在关联,进一步分析关联强度和方向 根据变量分布的维度划分,我们有以下两种不同分析角度: 时间维度(一维) Pearson相关系数 用于度量两个变量X和Y之间的相关程度(线性相关),其值介于-1与1之间,定义为两 ... »

特征向量和特征值

特征向量和特征值 定义1:$A$为$n imes n$的矩阵,$x$为非零向量,若存在$lambda$满足$Ax=lambda x$,那么$lambda$为该矩阵的特征值,$x$为其对应的特征向量。 警告:特征向量必须非零,但特征值可以为零;根据定义,特征向量也可以任意"拉伸"。 直观理解: ... »

最大熵模型原理小结

最大熵模型(maximum entropy model, MaxEnt)也是很典型的分类算法了,它和逻辑回归类似,都是属于对数线性分类模型。在损失函数优化的过程中,使用了和支持向量机类似的凸优化技术。而对熵的使用,让我们想起了决策树算法中的ID3和C4.5算法。理解了最大熵模型,对逻辑回归,支持向量 ... »

机器学习西瓜书笔记

机器学习基本术语 数据集(data set):记录的集合 示例(instance)或样本(sample):每条记录是关于一个时间或对象的描述 属性(attribute)或特征(feature):反映事件或对象在某方面的表现或性质的事项 属性值(attribute value):属性上的取值 属性空间 ... »

机器学习中数据缺失的处理及建模方法

在机器学习中建模的时候,往往面临两个困难,一是选择哪个模型,二是怎样处理数据。处于数据包括数据获取、数据清洗和数据分析。其实对于不同的场景和不同的数据,选择的模型也是不一样的,本文简单聊一聊在数据缺失的时候该怎样选择合适的模型。 一、缺失数据处理及建模方法 数据缺失时,处理数据的方式有如下三种: ( ... »

西瓜书第二章-----模型评估与选择(一)

2.1经验误差与过拟合 1.几个概念: (1)错误率(errorate):分类错误的样本数量占总样本数量的比例,例如m个样本中有a个样本分类错误,则erroerate为:E=a/m (2)精度(accuracy):公式:A=(1-a/m)*100% (3)误差(error):实际预测输出与样本真是输 ... »

常见文本相似度计算法

0 引言 在自然语言处理任务中,我们经常需要判断两篇文档是否相似、计算两篇文档的相似程度。比如,基于聚类算法发现微博热点话题时,我们需要度量各篇文本的内容相似度,然后让内容足够相似的微博聚成一个簇;在问答系统中,我们会准备一些经典问题和对应的答案,当用户的问题和经典问题很相似时,系统直接返回准备好的 ... »

Bagging和Boosting的介绍及对比

“团结就是力量”这句老话很好地表达了机器学习领域中强大「集成方法」的基本思想。总的来说,许多机器学习竞赛(包括 Kaggle)中最优秀的解决方案所采用的集成方法都建立在一个这样的假设上:将多个模型组合在一起通常可以产生更强大的模型。 一、集成方法 集成(Ensemble)方法就是针对同一任务,将多个 ... »

对于线性回归通俗理解的笔记

经常听说线性回归(Linear Regression) 到底什么才是线性,什么才是回归? 有学者说,线性回归模型是一切模型之母。所以,我们的机器学习之旅,也将从这个模型开始! 建立回归模型的好处:随便给一个x,就能通过模型算出y,这个y可能和实际值不一样,这个y是对实际值的一个可靠的预测 要想理解线 ... »

Sklearn 与 TensorFlow 机器学习实战—一个完整的机器学习项目

本章中,你会假装作为被一家地产公司刚刚雇佣的数据科学家,完整地学习一个案例项目。下面是主要步骤: 项目概述。 获取数据。 发现并可视化数据,发现规律。 为机器学习算法准备数据。 选择模型,进行训练。 微调模型。 给出解决方案。 部署、监控、维护系统。 使用真实数据 学习机器学习时,最好使用真实数据, ... »

随机森林

随机森林主要思想是先对原始样本随机选出(有放回抽样,和Bagging 一样,bootstrap不需要再进行交叉验证)N 个训练子集用于随机生成N颗决策树,针对每个样本集在构建决策树的选择最优属性进行划分时是随机选择m个属性,而不是像常用的决策树将所有的属性参与选择,再由这些决策树构成一个森林,随机森 ... »

距离:欧氏距离,曼哈顿距离,余弦距离

(目录) 欧式距离 欧式距离也称为欧几里得距离或者欧几里得度量,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。在二维和三维空间中的欧式距离就是两点之间的距离。 二维: x = (sqrt{(x_2-x_1)^2+(y_2-y_1)^2}) $(x_2,y_2)$到原点的欧式距 ... »