pandas的基本用法(熟记)
简单的几百条数据,足够练习了。提取码:h9z1
0. 导入包import pandas as pd
-
导入csv文件
data=pd.read_csv('D:/PyCharm Community Edition 2019.1.1/Recruit_Analyse/lagou.csv',encoding='utf-8') -
转给DataFrame类型
df=pd.DataFrame(data) -
基本的维度查看,也就行和列
df.shape -
数据表的基本信息(维度,列名称,数据格式,所占空间等)
df.info -
每一列的数据格式
df.dtypes -
某一列的格式
df['公司全名'].dtype -
查看空值:
df.isnull()flash代表不是空值 -
查看某一列的空值
df['城市'].isnull() -
查看某一列的唯一值 ,重复的已经被过滤掉了
df['城市'].unique() -
查看数据表的值
df.values -
查看列名称
df.columns -
查看前5行的数据
df.head()
查看前10行的数据df[:10] -
默认查看后5行
df.tail() -
用数据0填充空值 (空值:在pandas中的空值是""),缺失值:在dataframe中为nan或者naT(缺失时间),在series中为none或者nan即可
df.fillna(value=0) -
清除字段的字符空格
df['福利待遇']=df['福利待遇'].map(str.strip) -
大小写转换
df[‘salary’]=df[‘salary’].str.lower() -
更改数据格式
df['岗位id'].astype('str') -
更改列名称,只对当前df有效
df.rename(columns={'岗位id':'id'})
drop_duplicates():
subset : column label or sequence of labels, optional
用来指定特定的列,默认所有列
keep : {‘first’, ‘last’, False}, default ‘first’
删除重复项并保留第一次出现的项
inplace : boolean, default False
是直接在原来数据上修改还是保留一个副本 -
删除之后出现的重复值
df[‘岗位id’].drop_duplicates(keep=’last’) -
设置索引列
df.set_index('岗位id') -
按照特定列的值排序
df.sort_values(by=['城市']) -
如果城市列的值等于上海,城市列显示true,否则显示flase
df['城市']=np.where(df['城市']=='上海','true','flase')