【问题标题】:Cleaning dataset in Python在 Python 中清理数据集
【发布时间】:2017-03-11 16:52:27
【问题描述】:

我是 Python 新手。我有一个 CSV 文件,其中包含格式如下的推文条目:

15,10 月 11,785816454042124288,/realDonaldTrump/status/785816454042124288,False,"尽管 以压倒性优势赢得第二场辩论(每次民意调查),很难 当保罗瑞恩和其他人给予零支持时做得很好!”,唐纳德特朗普

还有一个

16,10 月 10,785563318652178432,/realDonaldTrump/status/785563318652178432,False,"哇, @CNN 被发现修复他们的“焦点小组”以制作 Crooked 希拉里看起来更好。真的很可悲,完全 不诚实!”,唐纳德特朗普

在 Python 中,我使用 Pandas 加载内容,如下所示:

data = pd.read_csv(arg, sep=',')

现在,我想清理 CSV 文件,只保存用户 ID(每行的第 3 个条目)和推文本身(我认为是第 6 行)。如您所见,我使用 sep=',' 进行拆分。问题是如果某些推文包含逗号,我不希望由于拆分而​​删除此字符。如果只有推文编号、日期、用户 ID 等之间的分隔符不是逗号,它会容易得多。关于如何做到这一点的任何建议?我只想要一个没有我不需要的信息的新 CSV 文件。

【问题讨论】:

  • 感谢 Priyank,但我想知道是否有办法在 Python 中处理这个问题。我认为在这种情况下 C# 会很容易。但我也想用 Python 学习一切。
  • Pandas 不会在 , 上拆分,因为它位于 "" 之间,"s 中的 " 无论如何都会被转义......所以,不太确定你的担心就在这里......
  • @JonClements 哇,这是真的吗?在那种情况下,我的问题真的很愚蠢。我现在意识到你是对的.. 并非所有行都有 ""s
  • 看看加载的数据...你会发现它很好...只有当字段分隔符出现在列中时才需要引号...

标签: python string csv nlp


【解决方案1】:

问题是如果某些推文包含逗号,我不希望由于拆分而​​删除此字符..

常规的 Python 标准库 CSV module 可以很好地处理这种情况:

>>> import csv
>>> s = '''15,Oct 11,785816454042124288,/realDonaldTrump/status/785816454042124288,False,"Despite winning the second debate in a landslide (every poll), it is hard to do well when Paul Ryan and others give zero support!",DonaldTrump
16,Oct 10,785563318652178432,/realDonaldTrump/status/785563318652178432,False,"Wow, @CNN got caught fixing their ""focus group"" in order to make Crooked Hillary look better. Really pathetic and totally dishonest!",DonaldTrump
'''.splitlines()
>>> for fields in csv.reader(s):
        print(fields[2], fields[5])


785816454042124288 Despite winning the second debate in a landslide (every poll), it is hard to do well when Paul Ryan and others give zero support!
785563318652178432 Wow, @CNN got caught fixing their "focus group" in order to make Crooked Hillary look better. Really pathetic and totally dishonest!

【讨论】:

    猜你喜欢
    • 2016-08-17
    • 1970-01-01
    • 2018-10-28
    • 2012-08-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-03-13
    • 2021-09-04
    相关资源
    最近更新 更多