6月17日实训记录

儿童文学的相关数据集是分散在每一个文件夹下有一本书,做为总的训练集需要汇总成一个txt文件,今天进行了部分的数据集的整理入图:
将文章开头的一些信息和描述去除
数据集的清洗消除所有的间隔和章节的描述,形成一个长文本的形式。如下图:
数据集的清洗

相关文章: