pandas 去重 drop_duplicates 函数

DataFrame中存在重复的行或者几行中某几列的值重复，这时候需要去掉重复行，

示例如下：

data.drop_duplicates(subset=['A','B'],keep='first',inplace=True)

参数含义:


代码中subset对应的值是列名，表示只考虑这两列，将这两列对应值相同的行进行去重。
默认值为subset=None表示考虑所有列。

keep='first'表示保留第一次出现的重复行，是默认值。keep另外两个取值为"last"和False，
分别表示保留最后一次出现的重复行和去除所有重复行。

inplace=True表示直接在原来的DataFrame上删除重复项，而默认值False表示生成一个副本。

第二：将副本赋值给dataframe：

data=data.drop_duplicates(subset=None,keep='first',inplace=False)

这一行代码与文章开头提到的那行代码效果等效，但是如果在该DataFrame上新增一列:

data['extra']=test_data['item_price_level']

就会报如下错误：

SettingWithCopyWarning:  A value is trying to be set on a copy of a slice from a DataFrame.

所以如果想对DataFrame去重，最好采用开头提到的那行代码。

相关文章：

2021-07-20
2022-12-23
2022-12-23
2021-12-25
2021-09-08
2022-12-23
2022-12-23
2022-12-23

猜你喜欢

2022-02-20
2021-11-04
2021-06-17
2022-12-23
2022-12-23
2022-12-23
2021-11-11

相关资源

下载 2023-03-18
下载 2023-01-13
下载 2023-01-01
下载 2022-12-09

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode