第一节、第二节
推荐书目
需要关注的顶级会议
顶级期刊
大师人物
关注他们实验室主页
用谷歌学术搜索文献
WEKA用户友好的学习软件
UCI有一些数据集
MATLAB有一些软件包
KDnuggets有大量数据挖掘相关的信息
数据挖掘是很多学科的综合体
很多技术归根到底都是数据挖掘
学习方法:
- 首先课堂要学习,要思考
- 课外依然要进行扩展自我学习、讨论
- 一定要动手去练习,编写程序,编写应用。这比听老师说有用的多
- 训练一个会思考的头脑
第三节
什么是数据
信息 != 数据
数据 -处理-> 信息
连续型(体重身高) 二值型(婚否)
逻辑层(数据库中的二维表、星型网络型) 物理层(磁盘中的01)
数据要进行转化(数据处理)
真实数据中有错误,普遍存在
什么是大数据
数据量大(high-volume)、数据源源不断地产生(high-velocity)、数据种类千奇百怪(high-variety)
数据大到传统技术无法处理
TB->ZB
静态的数据->每天每小时都产生的流数据
结构化数据->非结构化数据
用途:
- 把犯罪的历史记录标注在图上,挖掘出犯罪的模式和规律,什么时间什么地点什么案件
- 根据人的基因不同,给出不同的药
- 城市规划,超市、停车场、道路的布局
- 逛超市的轨迹,挖掘出顾客的轨迹和停留情况、购买情况、人数
- 为一段文字进行情感分析
- 社交网络的分析(发现有影响力的人,直播带货)
- 用数据分析的方法判断球员的价值《点球成金MoneyBall》
- 把相貌量化,
第四节
把数据库公开:1. 法律上公开,允许访问 2. 技术上容易获取
一些数据 公开的网址
美国政府提供了犯罪、交通等信息
数据挖掘:从数据中提取出有趣、有用、隐藏的信息
数据分析行业的需求
商务智能,商业决策、划分客户类型
信息 -数据挖掘-> 知识
数据存放在不同的数据源,把数据从数据源中提取出来,进行一些清洗、融合,装在数据仓库中(元数据、真实数据)再进行分析
定义问题->采集数据->建模->返回准确度->精确的足够了->实施->反馈
IBM spss可视化建模工具
多少层、每层多少神经元拖进去设置
第五节 算法
形式化classification
给一些训练集,先训练出模型,给一些未知数据时就可以预测
应用:医疗判断、对客户行为的判断
分界面:银行对贷款客户的风险评估(存款、收入)
分类器(分类面)
我们需要的黑颜色的线
绿颜色过拟合(over-fitting)没有形成一个合理的分界面
数据分为两部分
Traing set训练集
Test set测试集
confusion matrix 混淆矩阵
一个样本本身有positive或者negative的标签
模型也会对它进行positive或者negative的预测
结果可能一致(consistant)也可能犯错
confusion matrix 记录预测结果与真实值是否一致,并进行计算正确率
roc曲线
receiver operating characteristic
男人女人 1m 2m 的区别
auc 曲线下面的面积,与大越好(分类器的性能指标)
但是现实生活中,有病判没病 和 没病判有病 错误结果的危害程度是不一样的
(权重)
把最有可能购买的人排在前面,先打电话
没用模型,随机打10个电话买3个,用了模型,前十个打10个电话买6个,有一个提升度lift 为60%/30%
聚类clustering
无标签的
因为一个group数据较为相似,所以自己分为一个类
层次型聚类,小类到大类
关联规则(买了面包牛奶的会买黄油)
线性回归,拟合出来的可以是曲线的,线性是指,参数和变量之间是线性的。而不是最终的表达是线性的。
中间的回归相对来说比较好
给用户看的是dashboard 仪表盘,用形式化的结果展示出来
可视化研究中有很多可视化软件可以拿来用
数据预处理(最有挑战的部分)
GIGO 垃圾数据输入 垃圾数据输出
对数据进行处理是数据挖掘成功的第一步
是基础
第六集
互联网上没有隐私可言
棱镜门 白光->五颜六色各种信息
隐私保护
不能用常规的调研问卷
回答 0 或 1
问卷可以问 有过 或者 没有过
收问卷的不知道
云计算
光棍节100服务器
平时10台服务器
那么光棍节租100台 平时租10台就行了
亚马逊就提供这样的服务
软件变为服务 按次收费
这样的才是与计算
刀片服务器、i5 i7 四个核, 图形卡GPU变成计算卡了
小小的gpu可以做嵌入式的超级计算
数据+模型+高性能的计算平台 -> 数据的价值
没有最好的算法
实际中需要不断地尝试选择神经网络(输出难以解释)还是决策树(和客户比较好解释),参数应该调成什么样
越复杂的模型计算量越大,越容易产生over-fitting
knn k-mean的够用就行,效果也挺好,没必要一味追求高端的算法
数据随机(**)
需要进行很多预测才能进行预测(股票)
数据可能存在分组
XY全部看来是正相关
但分组后是负相关
曲线换成工资和中国GDP也可以
不能一看这两条曲线就马上得出关系
幸存者偏差
能飞回来的都是要害没中弹的
缺了时间因素
也是缺了时间
看问题不能以偏概全,要从各个层面看问题