【发布时间】:2020-06-19 15:41:01
【问题描述】:
我有一个制表符分隔的 .txt 文件,我正在尝试将其导入 Python 中的数据框,其格式与文本文件相同,如下所示:
ham TAB 一直到句容点,疯了.. 只在 bugis n great world la e Buffet 提供... Cine there got amore wat... p>
垃圾邮件 TAB 每周免费参加 2 场比赛以赢得 2005 年 5 月 21 日的足总杯决赛。发短信 FA 至 87121 以接收参赛问题(标准 txt 率)条款和条件申请08452810075over18的
...
请注意,上面还有很多很多行(大约 5500 行)我想传递给 Python 并在从中创建矩阵数组时保持相同的格式。
我目前的代码是:
import pandas as pd
with open("SMSSpamCollection.txt") as f:
reader = csv.reader(f, delimiter = "\t")
d = list(reader)
d = pd.DataFrame(reader)
它稍微做了我需要做的事情,但我想要一个包含 2 列的 DataFrame:Y(包含火腿或垃圾邮件)和第二个 X(包含消息)。这时我得到一个 [5572,2] DataFrame。
【问题讨论】:
-
你的工作比你需要的要努力得多。 Pandas read_csv 处理所有文件上下文管理和读取,几乎不需要任何调整,但可以进行大量调整
标签: python string dataframe csv