无聊的时候跑跑数据也是极好的
伏尔泰曾说“读书使人心眼儿亮” 哦不 “读书使人心明眼亮”
打广告 欢迎来踩个人博客
个人博客
记得手上有一个豆瓣图书的数据 然后没事儿 就手痒拿来跑了跑
分析主题
- 书籍数量是否随着时间增长?
- 书籍的评分与年代之间的关系
- 随着时间的推移书籍的价格是否越来越贵
- 书籍一般的价格分布
- 过去的时间段内哪些出版社的书籍最多
- 那几个出版社的书籍评分最高
- 高产作者有哪些
- 写出高质量书籍的作者
- 书籍评分与年份之间是否纯在关系
分析过程
0x01书籍数量是否随着时间增长
数据是从1905年开始
可以看到整体从1997年之后开始书籍的数量开始指数型增长,而前期的书籍数量则几乎没有任何增长,然后在2011年之后数量开始锐减,下降的原因也许是数据的问题(即并未收集) 关于图中前面的那个bug应该是数据清理的时候有点儿问题导致(lll¬ω¬)
0x03 书籍的价位分布
大部分的书籍的价位分布是在20-40之间,0-20的基本是一些电子书,超过100的大多数都是各种全集之类的譬如中国美术全集(60册)
0x05 出版社书籍数量
应为布局问题只展示了前30的数据,不过还是很清楚的看到前四名分别是耳熟能详的中信 人名文学 人民邮电 机械工业
0x07 作者书籍数量
嗯~~~
- 第一名亦舒 不认识(*/ω\*)
- 第二名是初高中噩梦
- 第三名是名句
人的一切痛苦,本质上都是对自己的无能的愤怒出处的王小波 - 第四名是中国当代武侠三大家之一的古龙
其他的分析待更