七周数据分析03_Excel

一、总结

1.常见函数

文本清洗类、关联匹配类、逻辑运算类、计算统计类、时间序列类

2.Excel的快捷键

Ctrl+方向键

Ctrl+Shift +方向键

Ctrl+空格键

Shift+空格键

Ctrl+A 选择整张表

Alt+Enter 换行

3.方便工具

分列

冻结首行/首列

删除重复数据

设置下拉条/数据验证

迷你图

4.作业实践

这部分非常重要，整体函数内容和工具偏理论，通过作业可以验证所学，掌握所学。

5.补充知识

（1）函数输入完成，鼠标放到右下角，当为加号时，双击默认扩充全列（遇到断掉的地方可能出问题）

（2）用完函数，如果考虑不再修改，可以直接修改为数值

（3）$符号为绝对值符号，=B3/H3向右拖动时，会为=C3/I3，若=B3/$H3向右拖动为=C3/$H3

6.脑图

七周数据分析03_Excel

二、为什么学习Excel

1.简介

Excel、SQL：适合于敏捷、快速需要立即响应的需求

Python、RI、ETC：常规、频繁、可复用可工程话的需求

2.前提

Excel保证新版本（2013+）

培养好的数据表格习惯

主动性搜索

多练习

三、Excel函数

1.函数

给定一个输入，根据参数得到不同结果

七周数据分析03_Excel

2.常见函数

文本清洗类、关联匹配类、逻辑运算类、计算统计类、时间序列类

2.1文本函数

1 bit=两种可能性，用0或1存储

1 byte = 8 bit，如00000001，一共有256种可能性

1 byte可以存256个字符编码，最初的存储方式ASCII，就存了英文+数字+符号

汉字远远大于256种可能性，于是用2byte组合表示，叫做GB2312

后来为了表示更多的汉子，用了GBK，它是拓展版，连繁体字都包括了可是中国还有少数民族啊！少数民族的文字怎么办？于是又多了GB18030

可是全世界有多少国家多少名族？于是发明了一个万国码，叫做unicode

随后又出现了UTF-8（ASCII是8位，而Unicode为16位，为了节省内存，大部分人仍使用ASCII，为了兼容，出现了UTF-8的编码格式）

七周数据分析03_Excel

2.2常见的文本清洗函数

Find

Left Right Mid

Concatenate

Replace

Substitute

Text

Trim

Len

2.3关联匹配函数

Lookup

Vlookup

Index

Match

Row

Column

Offset

Hyperlink

2.4逻辑运算函数

True and False = False

True or False = False

False or False = False

And

Not

False True

2.5计算统计函数

Sum

Sumproduct

Count

Max Min

Rank

Rand Randbetween

Averagea

Quartile

Stdev

Substotal

Int

Round

2.6时间序列函数

Year

Month

Weekday

Weeknum

Day

Date

Now

Today

四、Excel的快捷键

1.快捷键

Ctrl+方向键

Ctrl+Shift +方向键

Ctrl+空格键

Shift+空格键

Ctrl+A 选择整张表

Alt+Enter 换行

2.方便工具

2.1分列

当一列数据中都用一个相同元素隔开，可以在“数据->分列”中输入分割元素，可将一列分割成多个

2.2冻结首行/首列

在“视图->冻结窗口->冻结首列/首行”，可以将首行或首列固定。

2.3删除重复数据

在”数据->删除重复项“可以删除重复项

2.4设置下拉条/数据验证

在”数据->数据验证“内可以设置数据验证，让某一个区域内，只能输入你设置的字符。（设置的内容存储在区域内）

2.5迷你图

迷你图是将一段数据，以图像的形式表示在一个单元格内。在”插入->迷你图“内可以选择。

三、尝试

1.全国点评数最高的饭店是哪家？

=INDEX(C:D,MATCH(MAX(D:D),D:D),1)

2.哪个城市的饭店人均口味最好？

使用数据透视表。

选中表格所有内容->插入->数据透视表->城市拖入行，口味拖入值->点击口味右侧下三角修改值字段为平均值。

随后将结果粘贴成新的表格，降序，发现上海的口味最好。

注：当使用数据透视表获得数据后，不建议直接操作，建议复制到新的位置进行排序等操作。

3.哪个类型的餐饮评价最好？

使用数据透视表。（和上一个类似）

选中表格所有内容->插入->数据透视表->类型拖入行，点评拖入值->点击点评右侧下三角修改值字段为平均值。

随后将结果粘贴成新的表格，降序，发现杭帮/江浙菜的口味最好。

注：当使用数据透视表获得数据后，不建议直接操作，建议复制到新的位置进行排序等操作。

4.类型为川菜的店中，有多少个带「辣」字，又有多少个带「麻」字？

添加两列，=FIND("麻",C2,1)和=FIND("麻",C2,1)

然后筛选功能，选择川菜，分别去掉刚添加两列中#value和空的字段。

其中带辣的44个，带麻的28个，都带的28个。

5.口味、环境、服务，三个评价都在8.0以上的饭店有几家？它们在哪个城市的占比最多？

全选->开始->筛选功能->口味服务环境都选择大于8的店（在筛选界面选择数字筛选，大于等于，然后输入8即可）->对城市一列进行数据透视表->城市拖入行，城市拖入值（此时默认为计数，不是得话修改为计数）->复制粘贴出来排序即可，得出北京最多

6.上海地区中，各个类型饭店服务前五名？

方法一：

筛选出来上海地区->然后对服务和类型进行排序（开始->排序->自定义排序->主要关键字/次要关键字）->将数据粘贴出来->序列化（I2输入1，I3输入“=IF(B3=B2,I2+1,1)”，下面同样）->筛选功能，筛选出I列的1-5即可。

此时会有一个问题，评分相同则只保留第一项。

方法二：数据透视表

筛选出来上海地区->插入数据透视表->店名拖入行，类型拖入列，服务拖入值->点击服务右侧下三角修改值字段为求和->将透视表粘贴出来->删除一些无用数据（总结等）->在最后输入"=RANK(B3,B:B)"获取排名->删除#N/A

7.没有评价的饭店有几家？

COUNT 或筛选

8.将人均价格划分成0～50，50～100，100～150，150～200，200+这几个档次，各个城市分别有几家？其中占比又是多少？

在I2输入“=INT(E2/50)+1”，随后扩展至所有列->将200+以上及I列大于等于5的替换为5

此步也可以直接在I2输入“=IF((INT(E2/50)+1)>4,5,INT(E2/50)+1)”

将I列定义为level->将城市和level列粘贴到一起->进行数据透视->城市拖入行，level拖入列，城市拖入值->点击城市右侧下三角修改值字段为计数->将数据粘贴出来->通过sum求和，除法获取占比

9.将点评、人均、口味、环境、服务这几个指标加工出一个综合评价系数，并且计算哪十家店是最好的（开放题）

清除脏数据（将空格，和明显异常的数据清楚）->定评价标准（口味、环境、服务、点评是正比，人均是降权）->口味环境服务求和再求平均值得出A，点评通过ln求值得出B（使用log也行，但是要得出一个比较合适的数字，此处0-10比较合适），人均通过log（E2,4）求值-得出C->三值求和得出D->求出D的max与min->计算综合指数，通过(D-min)/(max-min)得（归一化，即让数字属于0-1）->排序

实现步骤：

删除点评人均口味环境服务这几项为空的->在I2列定义“=(F2+G2+H2)/3”并下拉->在J2列定义“=LN(D2)”并下拉->在K2列定义“=LOG(E2,4)”->在L2列定义“=(I2+J2+K2)/3”并下拉->在M2通过“=MAX(L:L)”求最大值，通过“=MIN(L:L)”求最小值->在N2通过“=(L2-M$3)/(M$2-M$3)”求出综合指数->排序

10.对所有地区的日本料理，做一次描述性分析（开放题）

数据清洗->数据栏数据分析