【发布时间】:2021-08-31 12:00:43
【问题描述】:
我在 CSV 文件中有一个包含 60,000 条推文的数据集。一些推文是多行的,但我需要将它们全部设为单行。举个例子:
从上面的例子可以看出,推文是多行的。我想把它排成一行:
index Tweet ID “在另一边,我们可以做到这一点我会更靠近你也许这次不会但我一次又一次地找到你#missuniverse #emin”,标签
我已尝试使用以下代码,但得到以下结果:
df7['Tweet']= df7['Tweet'].str.join(sep=' ')
代码实际上是进一步拆分,而不是加入。这没有帮助。我错过了什么?
请注意,此数据框包含上面给出的示例的多个实例,我想为整个数据集创建一行。
【问题讨论】:
-
您应该在将其作为数据框读取之前执行此操作。你如何区分多行推文和普通推文
-
您能否详细说明一下,在读取 csv 文件之前我如何处理它?有例子吗?
-
您可以将其作为文件读取并逐行进行必要的预处理。它更容易做到。您只需要一种方法来区分多行推文和推文结尾。看来你有办法做到这一点。
标签: python data-cleaning data-preprocessing