WOE

woe全称是“Weight of Evidence”,即证据权重,是对原始自变量的一种编码形式。 进行WOE编码前,需要先把这个变量进行分组处理(离散化) 其中,pyi是这个组中响应客户(即模型中预测变量取值为“是”或1的个体,也叫坏样本)占所有样本中所有响应客户的比例,pni是这个组中未响应客户( ... »

pandas pivot_table 活学活用实例教程

<! TOC "pandas pivot_table 活学活用实例教程" "导入相关数据分析的库" "首先进行commentTime时间进行数据预处理" "查看数据类型信息" "最简单的透视表" "看到这里你可能一脸懵逼,因为出来的数据你并不知道代表什么意思,这时候不要着急,不要慌,直接敲击该函数, ... »

数据处理之数据合并

1数据堆叠 数据堆叠分为以下两种: 行堆叠 列堆叠 行堆叠 列堆叠 pd.concat(objs, axis=0) objs:参与合并的多个DataFrame。无默认 axis:表示轴向,axis=0表示行合并,axis=1表示列合并 当然,如果axis=0(行堆叠)时,也可以使用append函数 ... »

数据处理之异常值检测

一、3σ原则 3σ原则又称为拉依达准则,该准则具体来说,就是先假设一组检测数据只含有随机误差,对原始数据进行计算处理得到标准差,然后按一定的概率确定一个区间,认为误差超过这个区间的就属于异常值。 正态分布状况下,数值分布表: 注:在正态分布中σ代表标准差,μ代表均值,x=μ为图形的对称轴 二、箱线图 ... »

初级数据校验

很多时候在数据分析之前,我们需要对样本进行校验,以确定样本的价值。 先写入数据: 1完整性校验 笔记:这里也可以用到describe方法,如下: 忘了describe方法的话,请查看《Python之Pandas知识点》 2时间跨度检验 很多样本的时间数据并不是以datatime64类型存储的,此时我 ... »

Python之Pandas知识点

很多人都分不清Numpy,Scipy,pandas三个库的区别。 在这里简单分别一下: NumPy:数学计算库,以矩阵为基础的数学计算模块,包括基本的四则运行,方程式以及其他方面的计算什么的,纯数学; SciPy :科学计算库,有一些高阶抽象和物理模型,在NumPy基础上,封装了一层,没有那么纯数学 ... »

pandas入门指南

上一篇讲了numpy,除此之外,还有一个工具我们一定会使用,那就是pandas。如果说numpy中数据存储形式是 列表 的话,那么pandas中数据的存储形式更像是 字典 。为什么这么说呢?因为pandas中的数据每一行每一列都有名字,而numpy中没有。本文主要介绍pandas的基本使用方法,更多 ... »

Python之使用Pandas库实现MySQL数据库的读写

  本次分享将介绍如何在Python中使用Pandas库实现MySQL数据库的读写。首先我们需要了解点ORM方面的知识。 ORM技术   对象关系映射技术,即ORM(Object Relational Mapping)技术,指的是把关系数据库的表结构映射到对象 ... »

pandas基础命令速查表

pandas基础命令速查表 数据的导入 数据的导出 创建测试对象 数据的查看与检查 数据的选取 数据的清洗 数据的过滤(filter)排序(sort)和分组(group) 数据的连接(join)与组合(combine) 一、数据的导入 pd.read_csv(filename) 导入csv格式文件中 ... »

python--Numpy and Pandas 基本语法

numpy和pandas是python进行数据分析的非常简洁方便的工具,话不多说,下面先简单介绍一些关于他们入门的一些知识。下面我尽量通过一些简单的代码来解释一下他们该怎么使用。以下内容并不是系统的知识体系,我只是尽可能把最基础的知识点列写一下。 一、numpy 1、array 注:numpy.ar ... »

重拾Python(5):数据读取

本文主要对Python如何读取数据进行总结梳理,涵盖从文本文件,尤其是excel文件(用于离线数据探索分析),以及结构化数据库(以Mysql为例)中读取数据等内容。 约定: import numpy as np import pandas as pd 1、从文本文件中读取 (1)使用Python标准 ... »

重拾Python(4):Pandas之DataFrame对象的使用

Pandas有两大数据结构:Series和DataFrame,之前已对Series对象进行了介绍( "链接" ),本文主要对DataFrame对象的常用用法进行总结梳理。 约定: import pandas as pd 1、什么是DataFrame对象? 一个二维表,有行索引(index)和列索引( ... »

重拾Python(3):Pandas之Series对象的使用

Pandas是Python下最强大的数据分析和探索库,是基于Numpy库构建的,支持类似SQL的结构化数据的增、删、查、改,具有丰富的数据处理函数。Pandas有两大数据结构:Series和DataFrame,本文主要对Series的常用用法进行总结梳理。 约定: import pandas as ... »

Pandas与Matplotlib基础

pandas是Python中开源的,高性能的用于数据分析的库。其中包含了很多可用的数据结构及功能,各种结构支持相互转换,并且支持读取、保存数据。结合matplotlib库,可以将数据已图表的形式可视化,反映出数据的各项特征。 先借用一张图来描述一下pandas的一些基本使用方法,下面会通过一些实例对 ... »

新手数据比赛中数据处理方法小结(python)

第一次参加,天池大数据竞赛(血糖预测),初赛排名1%。因为自己对python不熟悉,所以记录一下在比赛中用到的一些python方法的使用(比较基础细节,大佬绕道): 1.数据初探 使用上面两行代码,可以初步的看到整个数据的分布、缺失等情况 2.数据中存在性别是字符串表示的,使用map方法,将他数字化 ... »

[数据分析工具] Pandas 功能介绍(二)

条件过滤 我们需要看第一季度的数据是怎样的,就需要使用条件过滤 体感的舒适适湿度是40-70,我们试着过滤出体感舒适湿度的数据 最后整合上面两种条件,在一季度体感湿度比较舒适的数据 列排序 数据按照某列进行排序 “by”参数可以使用字符串,也可以是列表,ascending 的参数也可以是单个值或者列 ... »

[数据分析工具] Pandas 功能介绍(一)

如果你在使用 Pandas(Python Data Analysis Library) 的话,下面介绍的对你一定会有帮助的。 如果你在使用 Pandas(Python Data Analysis Library) 的话,下面介绍的对你一定会有帮助的。 如果你在使用 Pandas(Python Dat ... »