机器学习基本概念

机器学习的定义 [Mitchell, 1997]对机器学习给出了一个形式化的定义: 假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。 机器学习的基本概念 1. 特征向量(feature vector):特征 ... »

机器学习,了解一下?

1. 为什么要学? 老师上课时候就说过:传统算法解决确定性问题,而机器学习解决非确定性问题。 好吧,确实激起了我的兴趣,所以系统学习一下吧。 文章图片来源于 GitHub,网速不佳的朋友 "请点我看原文" 。 顺便软广一下个人技术小站: "godbmw.com" 。欢迎常来♪(^∇^ ) 2. ... »

Python3实现机器学习经典算法(四)C4.5决策树

一、C4.5决策树概述 C4.5决策树是ID3决策树的改进算法,它解决了ID3决策树无法处理连续型数据的问题以及ID3决策树在使用信息增益划分数据集的时候倾向于选择属性分支更多的属性的问题。它的大部分流程和ID3决策树是相同的或者相似的,可以参考我的上一篇博客:https://www.cnblogs ... »

机器学习100天——数据预处理(第一天)

有个叫Avik Jain的老外在github上发起了一个100天学习机器学习的项目,每天花一个小时学习机器学习,学习内容由浅入深。今天是第一天,内容是如何进行数据预处理。该教程的编程语言是Python。 数据预处理分为6步: 第一步:导入NumPy和Pandas库。NumPy和Pandas是每次都要 ... »

论文笔记系列-DARTS: Differentiable Architecture Search

Summary 我的理解就是原本节点和节点之间操作是离散的,因为就是从若干个操作中选择某一个,而作者试图使用softmax和relaxation(松弛化)将操作连续化,所以模型结构搜索的任务就转变成了对连续变量$α={α^{(i,j)}}$以及$w$的学习。(这里$α$可以理解成the encodi ... »

推荐系统:矩阵分解与邻域的融合模型

推荐系统 通常分析过去的事务以建立用户和产品之间的联系,这种方法叫做 协同过滤 。 协同过滤有两种形式:隐语义模型(LFM),基于邻域的模型(Neighborhood models)。 本篇文章大部分内容为大神Koren的 "Factorization Meets the Neighborhood: ... »

含有不等式约束的优化问题——KKT条件

优化问题: 其中, 定义:对于一个不等式约束,如果,那么称不等式约束是处起作用的约束。 定义:设满足,设为起作用不等式约束的下标集: 如果向量:是线性无关的,则称是一个正则点。 下面给出某个点是局部极小点的一阶必要条件(即如果是极小点,那么必然满足下列条件),称为KKT条件: 设,设是的一个正则点和 ... »

概述机器学习中的偏差与方差

在这篇博文中主要介绍下机器学习中的偏差和方差。在实际运用机器学习(或深度学习)模型的过程当中,总是会难免碰到一个问题,就是常说的偏差(Bias)与方差(Variance),及其之间的权衡(Bias-Variance Tradeoff),理解了机器学习中的方差和偏差有助于进一步理解机器学习算法的运作并 ... »

相似图像搜图全过程

最近完成了一个以图搜图的项目,项目总共用时三个多月。记录一下项目中用到机器学习的地方,以及各种踩过的坑。总的来说,项目分为一下几个部分: 一、训练目标函数 1、 设定基础模型 2、 添加新层 3、 冻结 base 层 4、 编译模型 5、 训练 6、 保存模型 二、特征提取 三、创建索引 四、构建服 ... »

图解机器学习读书笔记-CH6

鲁棒学习 最小二乘法易受异常值影响 异常值处理: 1. 提前剔除异常值再训练 2. 提高异常值的鲁棒性 鲁棒学习算法 1. $L_1$损失最小化 第$r_i$个样本的残差: L2损失随残差呈平方级增长: L1损失最小化学习较最小绝对值偏差学习$hat heta_{LA}$ L1损失LS受异常值 ... »

概率软逻辑(PSL,Probabilistic soft logic)通用(可处理中文)版本

一、简介 概率软逻辑(PSL,Probabilistic soft logic)是用于开发概率模型的机器学习框架,由加州大学圣克鲁兹分校和马里兰大学联合开发。目前其复杂的环境构建方式和Groovy语言表达给像作者一样的初学者带来了不小的困难,而且诸多的依赖项使原本已经构建好的模型小错误频繁。 经过努 ... »

基于pandas python sklearn 的美团某商家的评论分类(文本分类)

美团店铺评价语言处理以及分类(NLP) 上两篇博客中介绍了美团店铺的订单信息以及数据分析以及可视化 其中还有一部分评论文本信息并没有提及到,自然也就有了这篇 主要用到的包有jieba,sklearn,pandas 本篇博文主要先用的是词袋模型(bag of words),将文本以数值特征向量的形式来 ... »

.NET数据挖掘与机器学习开源框架

1. 数据挖掘与机器学习开源框架 1.1 框架概述 1.1.1 AForge.NET AForge.NET是一个专门为开发者和研究者基于C#框架设计的,他包括计算机视觉与人工智能,图像处理,神经网络,遗传算法,机器学习,模糊系统,机器人控制等领域。这个框架由一系列的类库组成。主要包括有: AForg ... »

强大而精致的机器学习调参方法:贝叶斯优化

一、简介 贝叶斯优化 用于机器学习调参由J. Snoek(2012)提出,主要思想是,给定优化的目标函数(广义的函数,只需指定输入和输出即可,无需知道内部结构以及数学性质),通过不断地添加样本点来更新目标函数的后验分布(高斯过程 ,直到后验分布基本贴合于真实分布。简单的说,就是 考虑了上一次参数的信 ... »

如何利用机器学习预测房价?

摘要:本文作者利用自己过去三个月里所学到的东西,来预测所在城市的房价。所用到的技术有网络爬取技术、文本自然语言处理,图像上的深度学习模型以及梯度增强技术等。 对于我在梅蒂斯的最后一个项目,我希望能包含过去三个月里所学到的东西,而预测波特兰房价这个题目正符合我的要求,因为我能够将网络爬取技术、文本自然 ... »