技术角度解读《庆余年》,深度挖掘小说语料 -01

庆余年》是由孙皓执导,张若昀李沁陈道明、吴刚、辛芷蕾宋轶郭麒麟等主演的古装剧。该剧改编自猫腻的同名小说,讲述了一个有着神秘身世的少年,自海边小城初出茅庐,历经家族、江湖、庙堂的种种考验、锤炼的故事。于2019年11月26日在腾讯视频、爱奇艺首播……

简单分析下最近的热播剧~几个步骤,想到了就更新系列……

STEP 01 

从网上下载小说版本,我比较喜欢在jupyter上写代码,如下图:

技术角度解读《庆余年》,深度挖掘小说语料 -01

STEP 02 

简单的文本处理,把章节存储为结构化的数据,章节标题,章节直接的父子关系,句子的切割。

STEP 03 

用得比较多的时间词,通过统计时间词,发现此部剧有大量的夜晚场景。

技术角度解读《庆余年》,深度挖掘小说语料 -01

STEP 04 

套路句,去掉标点符号,可以统计到TOP10的短句有哪些,发现:

范闲点了点头,笑了笑没有说什么

是他的标志动作。。。

还有 一切为了庆国 ,这一句看来可以作为 今年年底的网络流行语……

技术角度解读《庆余年》,深度挖掘小说语料 -01

还有很多有意思的,

待续……

欢迎添加我的微信

进一步交流讨论。

技术角度解读《庆余年》,深度挖掘小说语料 -01

相关文章推荐:

当AI学会了咪蒙的文风之后……

延禧攻略之中国传统图谱

相关文章: