将标记化的单词组合成 pandas 中的单个列表

【问题标题】：Combined tokenized words into single list in pandas将标记化的单词组合成 pandas 中的单个列表
【发布时间】：2018-06-22 07:58:28
【问题描述】：

我有一个带有“tokenized_texts”列的熊猫数据框：-

Tokenized_texts

[obama,america,counterpart]
[trump,election]
[development,china,canada]
..................
.................
................
[football,world,cup]

我想将其转换为包含所有标记化单词的单个列表：

预期输出

[obama,america,counterpart,trump,election,development,china,canada,.......,world,cup]

【问题讨论】：

标签： arrays python-3.x pandas

【解决方案1】：

您可以直接使用pandas.Series.sum获取所需的列表。

tokenized_texts = df['Tokenized_texts']
result = tokenized_texts.sum()

 >>>
 ['obama',
 'america',
 'counterpart',
 'trump',
 'election',
 'development',
 'china',
 'canada'
  ...
  ...
  ...
 ]

【讨论】：

无论如何我都可以使用 for 循环来做到这一点吗？
这比使用for循环快很多
是的，但我也有大量没有熊猫数据框的列表，我可以使用它，否则我需要先将其转换为数据框
您可以将其转换为pandas.Series，而不是处理数组。它也将变得更加容易和快速。