数据分析与数据挖掘 - 09邻近算法

一 邻近算法的基本介绍 1 基本说明 邻近算法又叫做K临近算法或者KNN(K-NearestNeighbor),是机器学习中非常重要的一个算法,but它简单得一塌糊涂,其核心思想就是样本的类别由距离其最近的K个邻居投票来决定。现在假设我们已经有一个已经标记好的数据集,也就是说我们已经知道了数据集中每 ... »

数据分析与挖掘 - 08图形绘制

一 图的基本构成 Matplotlib是数据可视化工作中,最常用的一个可视化库。Matplotlib有非常多的图形,我们很难在短时间内将其掌握,所以我们首先要掌握的是画图的思路和常用的一些图形。创建一个图的步骤大致可以分为9步,当然这9步并不是每一次都需要,只要你知道一个完整的图形可以有这么多的步骤 ... »

数据预处理和特征工程

数据挖掘的五大流程 获取数据 数据预处理 数据预处理是从数据中检测,纠正或删除孙华,不准确或不适用于模型的记录的过程 目的: 让数据适应模型, 匹配模型的需求 特征工程 特征工程是将原始数据转换为更能代表预测模型的潜在无问题的特征的过程, 可以通过挑选最相关的特征,提取特征以及创造特征来实现. 目的 ... »

用Tableau制作官网流量周报

好久没写博客了,上班摸鱼时间分享一下在工作中做的东西吧,先上图。 数据方面取自百度统计,身处传统类型公司,官网没有数据库,只好将就一下啦,反正是免费的,体验也还可以。 关于百度统计注册、添加管理站点和添加统计代码就不说了,下面直接开始取数。 一、数据获取 1.趋势分析数据(了解每日流量变化) 时间段 ... »

数据分析修炼指南

掌握数据,就是掌握规律。当你了解了市场数据,对它进行分析,就可以得到市场规律。当你掌握了产品自身的数据,对它进行分析,就可以了解产品的用户来源、用户画像等等。所以说数据是个全新的视角。数据分析如此重要,它不仅是新时代的“数据结构 + 算法”,也更是企业争夺人才的高地。接下来步入正题 一、什么是数据分 ... »

python爬京东(带GUI)

最近写了个专门爬百度的,后来又想爬京东的,还是采用上次的BeautifulSoup+requests模块 下面直接上代码,看不懂的可以看这篇文章或者注释来学习 #!/usr/bin/env python # -*- coding: utf-8 -*- #written by DY #http://d ... »

数据仓库知识点梳理(4)

接上一篇数据仓库知识点梳理(3)对数据立方体和MDX的介绍,本文将在本地Windows环境上搭建基于数据立方体的数据分析平台。并对一个示例立方体进行多维度分析。 环境配置 软件下载和安装 本文使用Pentaho的社区版本BI Server作为数据多维分析的工具,下载地址为https://source ... »

听说小米进入世界500强啦?解读历年500强数据了解国情

​前言: 前几天看到新闻才知道今年的500强已经出炉了,后面又看到小米首次进榜,第468名,雷军蜀黍开心的像个只有几十亿元的小孩子。还特意发了好几条微博: 据说进入世界五百强之后都是这样的: 视频放不出来,请移步公众号观看 我后面对这个五百强很感兴趣,于是就抓了财富杂志公布的历年来的500强信息分析 ... »

「Sqlserver」数据分析师有理由爱Sqlserver之九-无利益关系推荐Sqlserver书单

在前面系列文章的讲述下,部分读者有兴趣进入Sqlserver的世界的话,笔者不太可能在自媒体的载体上给予全方位的带领,最合适的方式是通过系统的书籍来学习,此篇给大家梳理下笔者曾经看过的自觉不错值得推荐的Sqlserver书单,希望能够给后来者带来一些指引和少走一些弯路。 最好的时代亦是最坏的时代 当 ... »

「干货分享」我所在团队的竞品分析模板--附下载

​ (配个封面太难了) 说起竞品分析,其实我们在分析什么,或者说目的是什么? 个人几点理解: 核心还是应对一句老话,知己知彼,百战不殆; 1、市场这么大,我想在市场分一杯羹,如何切入; 2、别人是怎么做的,有哪些优点可以借鉴(说的不好听就是抄袭); 3、别人是怎么做的,有哪些缺点或者还没涉及的领域( ... »

文档公式编辑神器-Snip

最近在重新学习统计学的一些基础知识,整理笔记的时候需要输入一些数学公式。从学校毕业之后,就没有在文档中插入过公式了。按照以前的经验,我把输入公式的方式分成两类。 所见即所得的方式,常见的就是微软word中的公式编辑器。 所想即所得的方式,按照LaTeX语法描述公式,使用工具将语句解析公式。 第一种方 ... »

Spark初步 从wordcount开始

Spark初步 从wordcount开始 spark中自带的example,有一个wordcount例子,我们逐步分析wordcount代码,开始我们的spark之旅。 准备工作 把README.md文件复制到当前的文件目录,启动jupyter,编写我们的代码。 README.md文件在Spark的 ... »

用Python学分析 - t分布

1. t分布形状类似于标准正态分布2. t分布是对称分布,较正态分布离散度强,密度曲线较标准正态分布密度曲线更扁平3. 对于大型样本,t-值与z-值之间的差别很小 作用- t分布纠正了未知的真实标准差的不确定性- t分布明确解释了估计总体方差时样本容量的影响,是适合任何样本容量都可以使用的合适分布 ... »

A/B_test改变新旧网页 观察用户的引流效果

代码处:https://github.com/xubin97/Data analysis_exp2 分析A/B测试结果 目录 简介 I 概率 II A/B 测试 简介 首先这个项目数据来自某公司的虚拟数据,主要是了解电子商务网站运行的 A/B 测试的结果。目标是通过这个 notebook 来帮助公司 ... »