数据挖掘入门笔记 | 第一章

第一节、第二节
推荐书目
数据挖掘入门笔记 | 第一章
需要关注的顶级会议

顶级期刊

大师人物

关注他们实验室主页

数据挖掘入门笔记 | 第一章
用谷歌学术搜索文献
WEKA用户友好的学习软件
UCI有一些数据集
MATLAB有一些软件包
KDnuggets有大量数据挖掘相关的信息

数据挖掘是很多学科的综合体
数据挖掘入门笔记 | 第一章
很多技术归根到底都是数据挖掘

学习方法：

首先课堂要学习，要思考
课外依然要进行扩展自我学习、讨论
一定要动手去练习，编写程序，编写应用。这比听老师说有用的多
训练一个会思考的头脑

第三节
什么是数据
信息！= 数据
数据 -处理-> 信息
连续型（体重身高）二值型（婚否）
逻辑层（数据库中的二维表、星型网络型）物理层（磁盘中的01）
数据要进行转化（数据处理）
真实数据中有错误，普遍存在

什么是大数据
数据量大(high-volume)、数据源源不断地产生(high-velocity)、数据种类千奇百怪(high-variety)
数据大到传统技术无法处理
TB->ZB
静态的数据->每天每小时都产生的流数据
结构化数据->非结构化数据
用途：

把犯罪的历史记录标注在图上，挖掘出犯罪的模式和规律，什么时间什么地点什么案件
根据人的基因不同，给出不同的药
城市规划，超市、停车场、道路的布局
逛超市的轨迹，挖掘出顾客的轨迹和停留情况、购买情况、人数
为一段文字进行情感分析
社交网络的分析（发现有影响力的人，直播带货）
用数据分析的方法判断球员的价值《点球成金MoneyBall》
把相貌量化，

第四节
把数据库公开：1. 法律上公开，允许访问 2. 技术上容易获取

一些数据公开的网址数据挖掘入门笔记 | 第一章

美国政府提供了犯罪、交通等信息

数据挖掘：从数据中提取出有趣、有用、隐藏的信息
数据分析行业的需求
商务智能，商业决策、划分客户类型
信息 -数据挖掘-> 知识

数据存放在不同的数据源，把数据从数据源中提取出来，进行一些清洗、融合，装在数据仓库中（元数据、真实数据）再进行分析
数据挖掘入门笔记 | 第一章

定义问题->采集数据->建模->返回准确度->精确的足够了->实施->反馈
IBM spss可视化建模工具
多少层、每层多少神经元拖进去设置

第五节算法
形式化classification
给一些训练集，先训练出模型，给一些未知数据时就可以预测
数据挖掘入门笔记 | 第一章
应用：医疗判断、对客户行为的判断

分界面：银行对贷款客户的风险评估（存款、收入）
数据挖掘入门笔记 | 第一章

分类器（分类面）
我们需要的黑颜色的线
绿颜色过拟合（over-fitting）没有形成一个合理的分界面

数据分为两部分
Traing set训练集
Test set测试集
数据挖掘入门笔记 | 第一章

confusion matrix 混淆矩阵
数据挖掘入门笔记 | 第一章
一个样本本身有positive或者negative的标签
模型也会对它进行positive或者negative的预测
结果可能一致(consistant)也可能犯错
confusion matrix 记录预测结果与真实值是否一致，并进行计算正确率

roc曲线
receiver operating characteristic
男人女人 1m 2m 的区别
数据挖掘入门笔记 | 第一章
auc 曲线下面的面积，与大越好（分类器的性能指标）