如何从数据集中的行中删除某些单词 - Pandas答案

【问题标题】：How to remove certain words from rows in a dataset - Pandas如何从数据集中的行中删除某些单词 - Pandas
【发布时间】：2020-11-10 11:31:34
【问题描述】：

在我的数据集中，有一个名为 AdminRegion2 的列，它有数千个不同的值，每个值都在不同的行中，它们都是美国的县。我需要从每个县名中删除某些单词，以便将数据集链接到 GeoJSON 文件。

有些县将这些词写在“自治市镇、人口普查区或县”的名称之后。我需要从可能包含其中任何一个的每一行中删除所有三个单词。所以它只是“鲍德温”

这是人口普查区的代码我累了，但所有最后有人口普查区的县仍然有它。我不知道为什么它不起作用。

only_counties = usa_only[usa_only['AdminRegion2'].str.contains("", na = False)]
only_counties = only_counties['AdminRegion2'].str.strip().str.replace("Census Area", '')
only_counties.to_csv("counties_only.csv")

【问题讨论】：

你想用only_counties = usa_only[usa_only['AdminRegion2'].str.contains("", na = False)]实现什么？
我试图让数据集只显示县数据。因为它包含州和县级的数据。这行代码有效。
好的。如果没有看到州级别的样本，我真的无法理解，但我已经更改了答案以使用 only_county 数据。
给我一个错误，我把错误贴在你的回答下面。
见下文。我希望这会有所帮助

标签： python pandas replace dataset

【解决方案1】：

我会使用：

only_counties = usa_only[usa_only['AdminRegion2'].str.contains("", na = False)].copy() # now only_counties is a sliced copy of usa_only, not a view

only_counties['AdminRegion2'] = only_counties['AdminRegion2'].str.replace(' County', '')
only_counties['AdminRegion2'] = only_counties['AdminRegion2'].str.replace(' Census Area', '')
only_counties['AdminRegion2'] = only_counties['AdminRegion2'].str.replace(' Borough', '')

这应该可以解决问题

【讨论】：

试图在数据帧的切片副本上设置一个值。尝试改用 .loc[row_indexer,col_indexer] = value
啊，是的。切片可以有这样的结果。尝试为only_counties 制作切片的.copy()。现在only_counties 是usa_only 的过滤副本，而不是过滤视图。

【解决方案2】：

试试这个：

usa_only['AdminRegion2']=usa_only['AdminRegion2'].apply(lambda x: x.replace(' Borough', '').replace(' Census Area', '').replace(' County', ''))

【讨论】：

又报错了，我不明白为什么。
usa_only['AdminRegion2']=usa_only['AdminRegion2'].apply(lambda x: x.replace('Borough', '').replace('人口普查区', '')。 replace(' County', '')) AttributeError: 'float' object has no attribute 'replace'
mapped = lib.map_infer(values, f, convert=convert_dtype)
您能否确认“AdminRegion2”列仅包含文本区域（无数值）？
是的，当然只有字符串