机器学习(一):5分钟理解机器学习并上手实践
引言 现在市面上的机器学习教程大多先学习数学基础,然后学机器学习的数学算法,再建立机器学习的数学模型,再学习深度学习,再学习工程化,再考虑落地。这其中每个环节都在快速发展,唯独落地特别困难。我们花费大量时间成本去学习以上内容,成本无疑是特别昂贵的。所以我们不如先“盲人摸象”、“不求甚解”地探索下机器 ... »
引言 现在市面上的机器学习教程大多先学习数学基础,然后学机器学习的数学算法,再建立机器学习的数学模型,再学习深度学习,再学习工程化,再考虑落地。这其中每个环节都在快速发展,唯独落地特别困难。我们花费大量时间成本去学习以上内容,成本无疑是特别昂贵的。所以我们不如先“盲人摸象”、“不求甚解”地探索下机器 ... »
本文翻译自 PyTorch 的 Tutorial 中的一篇文章,本文简单介绍了 PyTorch 的计算流程;简单地介绍了 PyTorch 的基础,并且伴随着一些独立的例子实现多项式拟合的问题。 其中包括:先使用 NumPy 实现一个多项式拟合热身、然后使用 PyTorch 中 Tensor 张量的... ... »
推荐系统是根据用户的行为、兴趣等特征,将用户感兴趣的信息、产品等推荐给用户的系统,它的出现主要是为了解决信息过载和用户无明确需求的问题,根据划分标准的不同,又分很多种类别 ... »
摘要:本篇博文从模型和算法的视角,分别介绍了基于统计方法的情感分析模型和基于深度学习的情感分析模型。 文本情感分析(Sentiment Analysis)是指利用自然语言处理和文本挖掘技术,对带有情感色彩的主观性文本进行分析、处理和抽取的过程。目前,文本情感分析研究涵盖了包括自然语言处理、文本挖掘、 ... »
本文讲述了关于向量、矩阵和张量之间的求导的一些知识和方法,其中包含了两个向量之间的求导,向量与矩阵的导数,如何处理更高维数的数组(张量),最后如何在矩阵和向量的导数上运用链式法则。 ... »
聚类算法是机器学习中的一种无监督学习算法,它在数据科学领域应用场景很广泛,比如基于用户购买行为、兴趣等来构建推荐系统。核心思想可以理解为, ... »
大家好,今天和大家聊一个算法工程师的职场日常——模型翻车。 我们都知道算法工程师的工作重点就是模型训练,很多人每天的工作就是做特征、调参数然后训练模型。所以对于算法工程师而言,最经常遇到的问题就是模型翻车了,好容易训练出来的模型结果效果还很差。很多刚入门的小白遇上这种情况都会一筹莫展,不知道究竟是哪 ... »
由于各种原因,现实世界中的许多数据集都包含缺失值,通常把缺失值编码为空白,NaN或其他占位符。但是,此类数据集与scikit-learn估计器不兼容,这是因为scikit-learn的估计器假定数组中的所有值都是数字,并且都存在有价值的含义。如果必须使用不完整数据集,那么处理缺失数据的基本策略是丢弃 ... »
插补法可以在一定程度上减少偏差,常用的插补法是热卡插补、拟合插补和多重插补。拟合插补,要求变量间存在强的相关性;多重插补(MCMC法),是在高缺失率下的首选插补方法,优点是考虑了缺失值的不确定性。 一,热卡插补 热卡填充(Hot deck imputation)也叫就近补齐,对于一个包含空值的对象, ... »
梯度下降伪代码 梯度下降可以优化损失函数的值,使其尽量小,即可找到最好(在数据集上拟合效果最好)的模型参数。 现在假设模型$f$中只有一个参数$w$,则损失函数为$L(f)=L(w)$,梯度下降算法如下(若模型有多个参数,按相同方法更新各参数) 初始化参数 随机选取一个$w0$($w0$并不一定是随 ... »
在真实的世界中,缺失数据是经常出现的,并可能对分析的结果造成影响。我们需要了解数据缺失的原因和数据缺失的类型,并从数据中识别缺失值,探索数据缺失的模式,进而处理缺失的数据。本文概述处理数据缺失的方法。 一,数据缺失的原因 首先我们应该知道:数据为什么缺失?数据的缺失是我们无法避免的,可能的原因有很多 ... »
本文对 Softmax 的反向传播的求导过程,进行了公式的推导,并对每个式子加以说明;由于本人数学功底有限,很多概念都是现查现学,如有描述不对的地方,还请各位指出改正。 ... »
Matplotlib 是建立在NumPy基础之上的Python绘图库,是在机器学习中用于数据可视化的工具。 我们在前面的文章讲过NumPy的用法,这里我们就不展开讨论NumPy的相关知识了。 Matplotlib具有很强的工具属性,也就是说它只是为我所用的,我们不必花太多的精力去精进它。我们只需要知 ... »
本文为作者学习李宏毅机器学习课程时参照样例完成homework1的记录。 任务描述(Task Description) 现在有某地空气质量的观测数据,请使用线性回归拟合数据,预测PM2.5。 数据集描述(Dataset Description) train.csv 该文件中是2014年每月前20天每 ... »
回归模型应用案例(Regression Cases) 股票市场预测(Stock Market Forecast) 预测某个公司明天的股票情况 自动驾驶车(Self-Driving Car) 预测方向盘转动角度 推荐系统(Recommendation) 预测某用户购买某商品的可能性 线性回归模型(Li ... »
机器学习是什么 机器学习就是让机器能自动找到一个函数(function) 语音识别(Speech Recognition) 输入是音频,输出是音频对应的文字。 图像分类 输入是图片,输出是类别(比如猫、狗)。 AlphaGo下围棋 输入是当前棋盘的状态,输出是下一步落棋的位置。 对话/问答系统 机器 ... »
目前社会科学研究注重变量的可解释性和未来政策的落地,主要采用了线性回归和逻辑回归的方法,在收入、健康、职业、社交关系、休闲方式等经济人口因素;以及政府公共服务、宏观经济环境、税负等宏观因素上有了一系列的推测和发现。 赛题尝试了幸福感预测这一经典课题,希望在现有社会科学研究外有其他维度的算法尝试,结合... ... »
在jupyter lab中,File-Export Notebook as-Export Notebook to PDF,可以导出成PDF格式的文档,但在操作前需要安装些程序。1. 安装pandocAnaconda自带安装了pandoc。2. 安装Miktex下载Miktex安装程序:https:/ ... »
浅析机器视觉在医疗影像处理中的应用 以人工智能,大数据和云计算为代表的新型电子信息产业的快速发展,极大地改善了人们的生活,促进了技术的不断进步。技术创新和智能产品以井喷的形式呈现。在人工智能风潮的影响下,现有的电子信息产业链条正逐步转变为网络信息产业智能网,电子信息产业的新增长点和边界也越来越大。 ... »
本文收集整理了机器学习相关速查表(Machine Learning Cheatsheet),包含机器学习、Python、Numpy、Pandas、Matplotlib、线性代数、微积分、统计学、概率论等相关速查表。我已经建立了开源项目MachineLearningCheatsheets,我将持续更新 ... »