在 Pandas 中清理列 - 胡言乱语答案

【问题标题】：Cleaning a column in Pandas - Gibberish在 Pandas 中清理列 - 胡言乱语
【发布时间】：2021-07-21 08:11:26
【问题描述】：

目的：清理我的 pandas 数据框中的 OneCol 列。 我做了什么：我导入了 NLTK，然后运行了这段代码：

import nltk    
import collections
from nltk.corpus import words

for value in df_US['OneCol']:
    if value in words.words():
        df_US['Result']=df_US['Result'].iloc.append(value)

我也试过这个：

#df_US['Result'] = df_US[['OneCol']].apply(lambda x: x.words.words())

没有成功！

我的数据如下所示：

谢谢你，感谢你给我的任何建议。

【问题讨论】：

分享你的数据框df_US
不要分享截图，而是分享代码中的数据框
所提供的值的预期结果是什么 - “好”、“xxxx”和“我喜欢编码”？
嗨亚历山德拉，我想删除那些输入无效单词/胡言乱语的人。在这种情况下，代码 2，xxxxx

标签： pandas for-loop lambda nltk

【解决方案1】：

让我们定义一个测试数据框：

import numpy as np
import pandas as pd

df = pd.DataFrame({
    'ID': [1,2,3, 4],
    'Country': [2,2,2,2],
    'Q1': ['', '', 'I like to CODE', ''],
    'Q2': ['Good', 'xxxx', '', 'some gibberish text: jgsldkgnlk'],
    'OneCol': ['good', 'xxxx', 'i like to code', 'some gibberish text: jgsldkgnlk']
})
df

这将提供以下数据框：

import nltk    
import collections
from nltk.corpus import words
nltk.download('words')

df['Result'] = df['OneCol'].apply(lambda x: ' '.join(list(set(x.split()) & set(words.words()))))

df

这将给出以下结果（删除未知单词）：

如果要删除包含至少一个未知单词的字段，可以使用以下方法：

df['Result'] = df['OneCol'].apply(lambda x: x if len(list(set(x.split()) & set(words.words()))) == len(set(x.split())) else None)

这将给出以下结果（如果字段包含未知单词，则删除该字段）：

请注意，此逻辑不考虑标点符号。如果文本中包含标点符号，则标点符号旁边的单词将无法识别。

【讨论】：

谢谢你，亚历山德拉，非常感谢！我会仔细看看的。我从标点符号和数字中清除了我的文本。
嗨，亚历山德拉，非常感谢您！它工作得很好。如果我不能返回值 True 或 False，而不是字符串，该怎么办？
要在Result 列中获取布尔值，可以使用以下表达式：df['Result'] = df['OneCol'].apply(lambda x: len(list(set(x.split()) & set(words.words()))) == len(set(x.split())))