【问题标题】:Concatenate/join multiple rows of strings into one single row for the entire dataframe将多行字符串连接/连接为整个数据帧的一行
【发布时间】:2021-08-31 12:00:43
【问题描述】:

我在 CSV 文件中有一个包含 60,000 条推文的数据集。一些推文是多行的,但我需要将它们全部设为单行。举个例子:

从上面的例子可以看出,推文是多行的。我想把它排成一行:

index Tweet ID “在另一边,我们可以做到这一点我会更靠近你也许这次不会但我一次又一次地找到你#missuniverse #emin”,标签

我已尝试使用以下代码,但得到以下结果:

df7['Tweet']= df7['Tweet'].str.join(sep=' ')

代码实际上是进一步拆分,而不是加入。这没有帮助。我错过了什么?

请注意,此数据框包含上面给出的示例的多个实例,我想为整个数据集创建一行。

【问题讨论】:

  • 您应该在将其作为数据框读取之前执行此操作。你如何区分多行推文和普通推文
  • 您能否详细说明一下,在读取 csv 文件之前我如何处理它?有例子吗?
  • 您可以将其作为文件读取并逐行进行必要的预处理。它更容易做到。您只需要一种方法来区分多行推文和推文结尾。看来你有办法做到这一点。

标签: python data-cleaning data-preprocessing


【解决方案1】:

这是一个您可以使用的简单解决方案:

df7['Tweet'] = df7['Tweet'].str.replace('\n', ' ')

请记住,在 ASCII 编码中,换行符由 转义序列表示:\n

用空格替换它会得到你想要的结果。

【讨论】:

  • 工作就像一个魅力。对少数人没有,但对大多数人来说。非常感谢。上帝保佑你。
猜你喜欢
  • 2015-09-18
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2014-06-02
  • 2019-10-03
  • 1970-01-01
  • 2016-10-13
相关资源
最近更新 更多