【问题标题】:pandas how to eliminate duplicate rows before they occur熊猫如何在重复行发生之前消除它们
【发布时间】:2016-11-18 17:04:56
【问题描述】:

我有一个由州名和城市名组成的数据框。但是,城市名称不仅仅是匹兹堡、费城等。城市名称可能包含我所说的声望名称。这是一个小样本

State            RegionName
Pennsylvania     California (California Uni...
Pennsylvania     Carlisle (Dickinson College)
Pennsylvania     Cecil B. Moore, Philadelphia, also...
...
Pennsylvania     University City, Philadelphia (Drexel Universi...

我需要通过删除括号信息等来清理这些数据。但我的问题是这个。 Cecil B. Moore 和大学城都是费城的一部分。如果我重命名这些值,我的数据集中有两行宾夕法尼亚费城。我不想那样。

所以从数据科学的角度来看,我可以简单地删除其中一行并重命名另一行中的 RegionName 值吗?或者有什么方法,在 pandas 中,在清理和重命名之后“组合”这些行。

这些数据最终将与州和地区名称(城市)的住房价值结合起来。

谢谢

【问题讨论】:

  • 您要保留子城市区域以及城市名称,还是只保留城市名称?如果您只想保留城市名称,可以在提取后删除重复项。
  • @James 如果我理解正确,这两个城市都将重命名为费城,并且所有其他信息都将从数据中清除。那么你是说 drop_duplicates() 将删除其中一个而留下另一个?
  • 是的。如果您的第 1、3 和 7 行有宾夕法尼亚州、费城作为州、地区名称,那么使用 drop_duplicates() 将删除第 3 行和第 7 行。这是假设没有其他列。

标签: python pandas


【解决方案1】:

只需提取所有行,然后使用.drop_duplicates() 从数据框中删除重复的行。

【讨论】:

  • 完美运行。非常感谢
猜你喜欢
  • 2019-12-07
  • 2016-02-11
  • 2021-08-31
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多