【发布时间】:2019-11-02 17:38:22
【问题描述】:
我想通过删除那些不包含关键字的推文来过滤熊猫数据框中包含推文(3+百万行)的列。为此,我正在运行以下循环(对不起,我是 python 新手):
filter_word_indicators = []
for i in range(1, len(df)):
if 'filter_word' in str(df.tweets[0:i]):
indicator = 1
else:
indicator = 0
filter_word_indicators.append(indicator)
这个想法是,如果指标等于 0,则删除推文。问题是这个循环需要永远运行。我确信有更好的方法来删除不包含我的“filer_word”的推文,但我不知道如何编码。任何帮助都会很棒。
【问题讨论】:
-
这是 python 2 还是 3?另外,你知道推文中有多少百分比有这个词?
-
Python 3。我预计只有大约 1% 的人会有我打算过滤的关键字。
-
您能否发布一些示例输入和输出。我建议添加代码来创建一个数据框,其中包含 3 条只有几个词的假推文以及过滤后的预期结果。不要使用实际的长推文。