【问题标题】:Combined tokenized words into single list in pandas将标记化的单词组合成 pandas 中的单个列表
【发布时间】:2018-06-22 07:58:28
【问题描述】:

我有一个带有“tokenized_texts”列的熊猫数据框:-

Tokenized_texts

[obama,america,counterpart]
[trump,election]
[development,china,canada]
..................
.................
................
[football,world,cup]

我想将其转换为包含所有标记化单词的单个列表:

预期输出

[obama,america,counterpart,trump,election,development,china,canada,.......,world,cup]

【问题讨论】:

    标签: arrays python-3.x pandas


    【解决方案1】:

    您可以直接使用pandas.Series.sum获取所需的列表。

    tokenized_texts = df['Tokenized_texts']
    result = tokenized_texts.sum()
    
     >>>
     ['obama',
     'america',
     'counterpart',
     'trump',
     'election',
     'development',
     'china',
     'canada'
      ...
      ...
      ...
     ]
    

    【讨论】:

    • 无论如何我都可以使用 for 循环来做到这一点吗?
    • 这比使用for循环快很多
    • 是的,但我也有大量没有熊猫数据框的列表,我可以使用它,否则我需要先将其转换为数据框
    • 您可以将其转换为pandas.Series,而不是处理数组。它也将变得更加容易和快速。
    猜你喜欢
    • 1970-01-01
    • 2016-11-02
    • 1970-01-01
    • 2020-08-30
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多