北京市蛋糕相关业务分析
1. 数据来源
本项目所使用的数据集全部来自大众点评网,通过网络爬虫工具来爬取相关数据。由于大众点评上与蛋糕相关的种类较多,所以爬取了有关蛋糕,甜品,烘焙和婚庆的店铺信息。
本次爬取信息的时候,主要获得了以下信息:
内容字段包括: 店铺名称、 评分、 点评数、 人均消费、分类、 地点、口味、环境、服务、地址、推荐菜、网友点评。
2. 项目目的
朋友近期开了一家蛋糕店,需要了解一下,北京市有关蛋糕行业的情况,并为自己主要经营哪些业务提供一些参考信息,数据调查计划从以下几个方面入手:
Ø 北京市和蛋糕有关店铺的数量和分布情况
Ø 不同种类的店铺的人均消费
Ø 不同种类的店铺的评分情况
Ø 网友对不同种类店铺的点评情况
Ø 比较受网友欢迎的产品
Ø 大众点评网上店铺评分和其他指标的关系
3. 技术和工具
本项目主要分为两大部分,第一部分是数据爬取,采用的是集搜客网络爬虫工具。第二部分是数据分析,以 python 编程语言为基础,利用matlibplot和excel进行图形的可视化。数据分析部分主要使用 pandas 作为数据整理和统计分析的工具。在进行网友推荐和网友点评分析的时候,使用了jieba 作为分词工具包,并使用 wordcloud 包制作词云,在进行建模分析的时候,使用了sklearn包进行建模,在绘制热点地图的时候使用的是excel的ArcGIS 。 项目中针对每个问题的代码均上传到
https://github.com/GoonerJoe/cake_market_analysis。
4. 数据清理
通过统计分类,并结合具体情况,将店铺的分类锁定在:面包甜点,DIY手工坊,兴趣生活,亲子玩乐,职业技术,教育培训,亲子游乐,婚礼小商品,花店以及亲子服务这10个类型,把相关的类型进行合并,最终确定主要分析的店铺类型为:面包甜点,DIY手工坊,兴趣生活,婚礼蛋糕,亲子玩乐和职业技术。
5. 店铺数量
由上图可知,面包甜点的店铺数量最多,DIY手工坊的数量次之,剩下四类的店铺的数量持平,可能因为面包甜点是大部分人的早餐选择,而DIY手工坊为周末情侣约会和亲子游乐提供了新的选择,剩下的几类是针对有特殊需求的人群,所以数量并不是很多。
6. 店铺区域分布
l 面包甜点类
目前市场上面包甜点类的店铺过多,所以在柱形图中只展现了店铺数量超过15家的地区,在热力图中展示了全部店铺的分布,我们可以看到三里屯,朝外大街,西单,王府井/东单,望京等地区,都具有人流量大,办公区集中的特点,看来面包甜点类的店铺选址在具有以上特点的区域比较好,也反映了面包甜点和人们的生活息息相关。
l DIY手工坊类
由于DIY手工坊类的店铺过多,所以在柱形图中只展现了店铺数量超过3家的地区,在热力图中展示了全部店铺的分布,我们可以看到DIY手工坊大都集中在居民区和学校比较集中的地方,这些地方租金相对比较便宜,也是情侣约会和亲子游乐的好地方。
l 其他四类店铺分布
由于剩下的四类店铺总数量不是很多,所以集中在一起展示,通过热力图我们可以看到,店铺呈零散分布状,但相对在东部比较集中。
l 整体分布
我们可以通过上图看到各类店铺在各区的分布,各类店铺相对集中在东边的朝阳区,因为该地区集中了大量的办公写字楼、商场与住宅楼房,工作与生活相结合从而导致人流量要高于其他区域。海淀区也有中关村这样的高新办公区和多所高校所以店铺的数量仅次于朝阳区。东、西城区也分别有王府井、西单和金融街这样人流量高的办公区和商圈,但区域面积相对朝阳和海淀较小,所以数量排在第三和第四。
7. 店铺评分
以上五种类型的商户,面包甜点与DIY手工坊的评论划分相对比较详细,一是由于这两种类型的商铺比较符合当下人们生活的需求,再因这两类的店铺分布相对数量较多,所以呈现的用户反馈也会多。
余下四种店铺主要针对特殊消费人群,除去蛋糕口味,人们更多考量了服务质量等其他因素,因此导致了评分等级不分明。另外通过数据表明亲子玩乐与兴趣生活店铺未来还有很大的提升空间。
8. 人均消费
通过表格我们可以了解到兴趣生活类和婚礼蛋糕类的消费偏高,也有一定因素的样本量较少,但也侧面反映出兴趣生活类三星店面较多的原因,消费高却不能使消费者有等价的消费满足感。面包甜点类人均消费大都在50元以下,DIY手工坊的人均消费集中在50-200元,婚礼蛋糕类大都在1000元以下,剩下的积累样本数量太少,容易对统计造成偏差,便不再做详细分析。希望可以为各类店铺的产品定价提供一个参考信息。
9. 网友点评
面包甜点类
DIY手工坊
除了面包甜点和DIY手工坊之外的四类,网友的评价太少,所以没做统计。由词云可知面包甜点的顾客,大都是回头客,店铺环境,产品价格,服务质量和口味是他们最看重的。DIY手工坊的顾客,比较看重教授他们技师的专业性和服务的质量还有制作的环境。
10. 网友推荐
面包甜点类
由于除了面包甜点其他几类都不涉及相关产品,所以只统计了面包甜点类的推荐产品,通过词云我们可以看到,鸡蛋仔,杨枝甘露,芋圆,抹茶千层,泡芙,甜甜圈和提拉米苏是比较受欢迎的产品。
11. 平均得分
由于除了面包甜点和婚礼蛋糕,其余的网友评分很少,目前只统计了这两类的平均得分。
由图可以看到,面包甜点类的口味,环境和服务得分大都集中在7-9分之间,说明现在的面包甜品产业已经很成熟,各个店家已经掌握了客户的喜好。
12. 评分与各项得分之间的关系
通常一个店铺的评分是潜在客户是否选择这家店的重要参考指标,所以我想通过数学模型来预测一家新的店铺的评分,相关的参数为评分,口味,环境和服务,其中评分应变量,口味,环境,服务为自变量。利用多元线性回归模型来预测评分。
首先绘制散点图,如下图所示:
我们可以看到评分和剩下三个参数有较强的线性关系。在计算一下各个参数和评分的相关性,如下图所示:
通过散点图和相关系数分析,有较强的线性关系。利用python中的sklearn库构建多元线性回归模型,得到的评分有0.82,非常好的拟合,得到的估计多元线性方程为:
y = -1.44044889587372+0.46384831x1 + 0.01876543 x2 +0.19819469 x3
其中 x1 – 口味评分
x2 – 环境评分
x3 – 服务评分
13. 分析结论
通过数据分析,我们可以知道面包甜点的店铺数量在市面上占据最多,DIY手工坊的数量次之,剩下四类店铺的数量基本持平,日常生活中面包甜点是大家每天都有需求的商品,而DIY手工坊为周末情侣约会和亲子游乐提供了新的选择,剩下的几类是针对有特殊需求的人群,所以数量并不是很多。
如果想要开面包甜点的店铺,可以选择人流量大和办公区域集中的地方,要是想开DIY手工坊,比较适合选在居民区或者学校附近,因为这些地方离商圈不远,租金成本相对较低。剩下的亲子玩乐,兴趣生活等类,选择在交通比较便利的地方比较适宜。
各类店铺大多数的评分都是在四星店铺以上,但是打算开设这种兴趣生活培训班的人们,需要重点考虑到让自己的学员提升满意度,因为它的三星店铺占比最高。
面包甜点类人均消费大都在50元以下,DIY手工坊的人均消费集中在50-200元,婚礼蛋糕类大都在1000元以下,兴趣生活类和婚礼蛋糕类的平均消费很高,这也和样本量太少不无关系。
面包甜点的顾客,大都是回头客,店铺环境,产品价格,服务质量和口味是消费者最看重的。DIY手工坊的顾客,比较看重教授他们技师的专业性和服务的质量还有消费环境。
本次数据也对目前比较受欢迎的面包甜点做了调查:鸡蛋仔,杨枝甘露,芋圆,抹茶千层,泡芙,甜甜圈和提拉米苏等这样些网红产品都名列其中。面包甜点类的口味,环境和服务得分大都集中在7-9分之间,因此得出可以看出我市的面包甜点类商铺已经广泛满足市场需求,处于成熟发展阶段。
店铺评分和口味,服务和环境的关系为:
y = -1.44044889587372+0.46384831x1 + 0.01876543 x2 +0.19819469 x3