【发布时间】:2021-02-26 15:49:28
【问题描述】:
我有一本字典df2,其中每个值都是一个单词列表。然后我想将所有这些列表合并到df3。为此,我使用了一个循环,这需要超过 1 分钟才能完成。
import nltk
from nltk.corpus import twitter_samples
from nltk.tokenize import word_tokenize
df = twitter_samples.strings('tweets.20150430-223406.json')
df2 = {}
for i in range(len(df)):
df2[i] = word_tokenize(df[i])
df3 = []
for i in df2:
df3 = df3 + df2[i]
df3[0:5]
它返回['RT', '@', 'KirkKus', ':', 'Indirect']。能否请您提供一种更高效的方式来高效生成df3?
【问题讨论】:
-
您能告诉我们您使用此代码得到的输出吗?
-
请向minimal reproducible example 提供示例输入和预期输出数据,以便我们更好地了解您在此处尝试执行的操作。此外,如果您的代码有效并且您只想改进它,还有 Code Review,但如果您在那里发帖,请阅读他们的规则和操作方法以确保您的问题与主题相关
-
@Saimon 我已经添加了输出。
-
为什么不直接从
word_tokenize()的结果创建df3,而不是添加到字典然后然后添加到列表?除此之外,(并将其写成列表理解,本质上是语法糖)我看不到任何更有效的方法 -
@PranavHosangadi 这是因为
df2是我练习中必需的数据框。
标签: python python-3.x list dictionary