故事是这样的,在知乎上有一个问题叫做:

有哪些质量很高的冷门电影?    

有3万多的关注者,181万的浏览量。

一次数据可视化的过程【Excel】

今天主要想记录下数据分析的过程。(数据采集并不困难,难的是数据清洗)

既然拿到数据了,那肯定需要来做分析了。

使用造数把豆瓣大神分享的电影数据都拿下来,它长这样。

一次数据可视化的过程【Excel】

一次数据可视化的过程【Excel】

第一列是电影名,有中文和外文,我要把它分离。

起初我是想使用“分列”,但是发现不行,英文中也含有空格,去搜索“Excel提取中文”,找到一种最简单的方法

一次数据可视化的过程【Excel】

OK,第一个问题解决

第二列是评分,还需要转化为数字格式,不是难事。

第三列评价数,替换一下就好了。

第四列就是最头疼的了,竟然是这种格式

一次数据可视化的过程【Excel】

搜索怎样才能去除换行符,然后再百度里找到这个

一次数据可视化的过程【Excel】

按照这种方法,消除了换行符,下面头疼的就是怎样分列

一次数据可视化的过程【Excel】

直接使用数据中的分列是不行的,分隔符号和固定宽度都不可行,

一次数据可视化的过程【Excel】

最终想到了一种办法,复制空白长度,将长度替换成符号,再用符号分列。

一次数据可视化的过程【Excel】

OK,大功告成,接下来就很简单了,直接放做好的图。

一次数据可视化的过程【Excel】

其中出现3次及3次以上的导演有 格斯·范·桑特、拉斯·霍尔斯道姆、理查德·林克莱特、尼尔·乔丹。    

一次数据可视化的过程【Excel】

出现3次及3次以上的演员有:   罗伯特·德尼罗、约翰尼·德普、比尔·默瑞、罗宾·威廉姆斯    、斯嘉丽·约翰逊、布拉德·皮特、金·凯瑞、伊桑·霍克。

一次数据可视化的过程【Excel】

最喜欢的类型有:剧情、爱情、喜剧。

一次数据可视化的过程【Excel】

排在前面的国家有:美国、英国、法国、日本、德国。

顺便说一句,终于可以带上原创了,  一次数据可视化的过程【Excel】欢迎留言

完整的可以阅读原文观看

相关文章:

  • 2021-07-20
  • 2022-01-09
  • 2021-10-07
  • 2021-05-23
  • 2021-07-08
  • 2021-07-28
  • 2021-11-14
  • 2021-11-30
猜你喜欢
  • 2021-04-07
  • 2021-10-02
  • 2021-11-29
  • 2021-09-02
  • 2021-10-19
  • 2022-01-14
  • 2021-12-08
相关资源
相似解决方案