【发布时间】:2014-08-06 06:17:01
【问题描述】:
我正在寻找一种更有效的方式将文本数据加载到 Python 中,而不是使用 .readlines(),然后手动解析数据。我的目标是在文本上运行不同的模型。
我的分类器是人们的名字,它们列在他们的文字之前......让我们称之为“评论”......它们用***分隔。下面是一个txt文件的例子:
Mike P,评论,2013 年 12 月
Mike P,评论,2013 年 6 月
Tom A,评论,2013 年 12 月
Tom A,评论,2013 年 6 月
Mark D,评论,2013 年 12 月
Mark D,评论,2012 年 6 月
Sally M,评论,2011 年 12 月
***这是 Mike P 的第一篇评论
***这是 Mike P 的第二次评论
***这是 Tom A 的第一篇评论
***等等……
最终,我需要从“评论”中创建一个词袋。我可以在 R 中做到这一点,但我强迫自己学习 Python 进行数据分析,并在我转向的每一个方向上都保持转动。
提前致谢!
【问题讨论】:
-
也许你可以提供更多关于你的词袋结构的信息?
-
关于在Python中读取文件this Q&A可以查看。
-
@JohnBarça,使用 readlines() 并没有错,我只是想知道是否有更好(或最好)的方法将这些数据导入 Python。我将在“评论”中创建文本的词频矩阵。因此,在表格格式中,将每一行视为一个名称(Mike P、Tom A 等),列是评论中的单词。
-
@utrecht,谢谢!我能够使用
lines = text_file.read().split('***')将每个“评论”加载到列表中的一个元素中。在此之前的所有内容都在lines[0]中,解析应该不会太糟糕。 -
好的,我的立场是正确的。对于非常大的文件,readlines 是个坏主意。
标签: python text-analysis