GBDT+LR算法解析及Python实现

1. GBDT + LR 是什么 本质上GBDT+LR是一种具有stacking思想的二分类器模型,所以可以用来解决二分类问题。这个方法出自于Facebook 2014年的论文 Practical Lessons from Predicting Clicks on Ads at Facebook 。 ... »

数据不平衡

数据不平衡问题 在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不均匀,都会存在“长尾现象”,也就是数据不平衡”。 以下几种方法是针对数据不平衡问题所做的处理,具体包括: 1.smo ... »

读书笔记|我理解的《数据挖掘概念与技术》 开篇

我理解的数据挖掘   什么是数据挖掘:数据中的知识发现(KDD),是自动或方便得提取代表知识的模式。 这是一个多学科的领域,包括 统计学,机器学习,模式识别,数据库技术,信息检索,网络科学,知识库系统,人工智能,高性能计算和数据可视化技术。 ... »

金融数据分析与挖掘具体实现方法 -1

有人让我写一下关于数据挖掘在金融方面的应用,再加上现在金融对数据方面的要求不断提高,准备用两篇随笔来做个入门总结。 首先,在看这篇随笔以前稍微补充一点金融方面的知识,因为我不是金融专业的,以下补充知识来自互联网与个人整理,欢迎批评指正并补充说明。 1 先来了解一下什么是金融市场呢? 通常狭义的金融市 ... »

这些年,在数据挖掘项目中踩的“坑”

数据挖掘项目是一个涉及的环节也比较多,而且高度依赖数据的项目。所以在其中一个过程中遇到点坑,简直太正常不过了。需求不明确是第一大坑。需求不明确会把后面的分析方向完全带沟沟里面去,也容易被迫接受一些不可能完成的挖掘目标和商业目标。不过这种一般只会发生在一个公司刚开始有这个岗位的时候,随着项目的增加,后 ... »

模型构建<1>:模型评估-分类问题

对模型的评估是指对模型泛化能力的评估,主要通过具体的性能度量指标来完成。在对比不同模型的能力时,使用不同的性能度量指标可能会导致不同的评判结果,因此也就意味着,模型的好坏只是相对的,什么样的模型是较好的,不仅取决于数据和算法,还取决于任务需求。本文主要对分类模型的性能度量指标(方法)进行总结。 本文 ... »

关于特征工程的一些学习、思考与错误的纠正

特征工程的整体思路: 1. 对于特征的理解、评估 2. 特征处理: 2.1 特征处理 2.1.1 特征清洗 清洗异常、采样 2.1.2 预处理 单特征情况:归一化、离散化、哑变量编码、缺失值填充等。数据变换例如log服从正态分布。 多特征情况: 降维:PCA、LDA(这个不太了解、待学习) 特征选择 ... »

数据准备<5>:变量筛选-实战篇

在上一篇文章 "《数据准备:变量筛选 理论篇》" 中,我们介绍了变量筛选的三种方法:基于经验的方法、基于统计的方法和基于机器学习的方法,本文将介绍后两种方法在Python(sklearn)环境下的具体实现。 1.环境介绍 版本:python2.7 工具:Spyder 开发人:hbsygfz 2.数据 ... »

数据准备<4>:变量筛选-理论篇

在上一篇文章 "《数据准备:数据预处理》" 中,我们提到降维主要包括两种方式:基于特征选择的降维和基于维度转换的降维,其中基于特征选择的降维通俗的讲就是特征筛选或者变量筛选,是指从多个特征(变量)中筛选出显著的特征(变量),在分类预测问题中,就是筛选出对目标变量有预测能力的特征(变量)。本篇主要介绍 ... »

Kaggle 广告转化率预测比赛小结

20天的时间参加了Kaggle的 "Avito Demand Prediction Challenged" ,第一次参加,成绩离奖牌一步之遥,感谢各位队友,学到的东西远比成绩要丰硕得多。希望每记录一次可以进步一次。下面将我这段时间的心路历程进行记录,作为经历,也作为自己的经验: 可点击 "Githu ... »

如何在未来的大数据和机器学习领域,获得一份不错的工作?

2018 年,AI 的发展脚步会加快,这一年将是 AI 技术重生和数据科学得以重新定义的一年。对于雄心勃勃的数据科学家来说,他们如何在与数据科学相关的工作市场中脱颖而出?2018 年会有足够多的数据科学相关工作吗?还是说有可能出现萎缩?接下来,让我们来分析一下数据科学的趋势,并一探如何在未来的大数据 ... »

主成分分析推导

主成分分析推导 前言 在数据分析中,有些特征可能是冗余的,即使不是冗余的也可以通过特征的变换,构造更好且更少的一组特征来描述数据的性质。 主成分分析原理 可以把一个具有n个特征的记录视为一个高维空间上的向量,它每个特征上的取值视为在该维度下的坐标。众多的点形成点集。同样可以找到另外一个基(n个单位基 ... »

数据准备<3>:数据预处理

数据预处理 是指因为算法或者分析需要,对经过数据质量检查后的数据进行转换、衍生、规约等操作的过程。整个数据预处理工作主要包括 五个方面内容 :简单函数变换、标准化、衍生虚拟变量、离散化、降维。本文将作展开介绍,并提供基于Python的代码实现。 1. 简单函数变换 简单函数变换 是指对原始数据直接使 ... »

数据分析入门:如何训练数据分析思维?

本文由 网易云 发布。 作者:吴彬彬(本篇文章仅限知乎内部分享,如需转载,请取得作者同意授权。) 我们在生活中,会经常听说两种推理模式,一种是归纳 一种是演绎,这两种思维模式能够帮助数据分析师完成原始的业务逻辑积累,在此基础上快速定位业务问题,提升分析效率,但是对于刚入门的数据分析师,在项目经验不足 ... »

数据挖掘_刘勇协程抓取

协程,又称微线程,纤程。英文名Coroutine。 协程的概念很早就提出来了,但直到最近几年才在某些语言(如Lua)中得到广泛应用。 子程序,或者称为函数,在所有语言中都是层级调用,比如A调用B,B在执行过程中又调用了C,C执行完毕返回,B执行完毕返回,最后是A执行完毕。 所以子程序调用是通过栈实现 ... »

数据准备<2>:数据质量检查-实战篇

上一篇文章: "《数据质量检查 理论篇》" 主要介绍了数据质量检查的基本思路与方法,本文作为补充,从Python实战角度,提供具体的实现方法。 承接上文,仍然从重复值检查、缺失值检查、数据倾斜问题、异常值检查四方面进行描述。 1.环境介绍 版本:python2.7 工具:Spyder 开发人:hbs ... »

数据挖掘_多进程抓取

之前说过Python的多线程只能运行在一个单核上,也就是各线程是以并发的方式异步执行的 这篇文章我们来聊聊Python多进程的方式 多进程依赖于所在机器的处理器个数,在多核机器上进行多进程编程时,各核上运行的进程之间是并行执行的,可以利用进程池,是每一个内核上运行一个进程,当翅中的进程数量大于内核总 ... »