【发布时间】:2017-03-11 16:52:27
【问题描述】:
我是 Python 新手。我有一个 CSV 文件,其中包含格式如下的推文条目:
15,10 月 11,785816454042124288,/realDonaldTrump/status/785816454042124288,False,"尽管 以压倒性优势赢得第二场辩论(每次民意调查),很难 当保罗瑞恩和其他人给予零支持时做得很好!”,唐纳德特朗普
还有一个
16,10 月 10,785563318652178432,/realDonaldTrump/status/785563318652178432,False,"哇, @CNN 被发现修复他们的“焦点小组”以制作 Crooked 希拉里看起来更好。真的很可悲,完全 不诚实!”,唐纳德特朗普
在 Python 中,我使用 Pandas 加载内容,如下所示:
data = pd.read_csv(arg, sep=',')
现在,我想清理 CSV 文件,只保存用户 ID(每行的第 3 个条目)和推文本身(我认为是第 6 行)。如您所见,我使用 sep=',' 进行拆分。问题是如果某些推文包含逗号,我不希望由于拆分而删除此字符。如果只有推文编号、日期、用户 ID 等之间的分隔符不是逗号,它会容易得多。关于如何做到这一点的任何建议?我只想要一个没有我不需要的信息的新 CSV 文件。
【问题讨论】:
-
感谢 Priyank,但我想知道是否有办法在 Python 中处理这个问题。我认为在这种情况下 C# 会很容易。但我也想用 Python 学习一切。
-
Pandas 不会在
,上拆分,因为它位于"和"之间,"s 中的"无论如何都会被转义......所以,不太确定你的担心就在这里...... -
@JonClements 哇,这是真的吗?在那种情况下,我的问题真的很愚蠢。我现在意识到你是对的.. 并非所有行都有 ""s
-
看看加载的数据...你会发现它很好...只有当字段分隔符出现在列中时才需要引号...