pandas笔记 - 爱码网

pandas的基本用法（熟记）

简单的几百条数据，足够练习了。提取码：h9z1
0. 导入包
import pandas as pd

导入csv文件
data=pd.read_csv('D:/PyCharm Community Edition 2019.1.1/Recruit_Analyse/lagou.csv',encoding='utf-8')
转给DataFrame类型
df=pd.DataFrame(data)
基本的维度查看，也就行和列
df.shape
数据表的基本信息（维度，列名称，数据格式，所占空间等）
df.info
每一列的数据格式
df.dtypes
某一列的格式
df['公司全名'].dtype
查看空值:
df.isnull() flash代表不是空值
查看某一列的空值
df['城市'].isnull()
查看某一列的唯一值 ,重复的已经被过滤掉了
df['城市'].unique()
查看数据表的值
df.values
查看列名称
df.columns
查看前5行的数据
df.head()
查看前10行的数据
df[:10]
默认查看后5行
df.tail()
用数据0填充空值（空值：在pandas中的空值是""），缺失值：在dataframe中为nan或者naT（缺失时间），在series中为none或者nan即可
df.fillna(value=0)
清除字段的字符空格
df['福利待遇']=df['福利待遇'].map(str.strip)
大小写转换
df[‘salary’]=df[‘salary’].str.lower()
更改数据格式
df['岗位id'].astype('str')
更改列名称,只对当前df有效
df.rename(columns={'岗位id':'id'})

drop_duplicates()：
subset : column label or sequence of labels, optional
用来指定特定的列，默认所有列
keep : {‘first’, ‘last’, False}, default ‘first’
删除重复项并保留第一次出现的项
inplace : boolean, default False
是直接在原来数据上修改还是保留一个副本
删除之后出现的重复值
df[‘岗位id’].drop_duplicates(keep=’last’)
设置索引列
df.set_index('岗位id')
按照特定列的值排序
df.sort_values(by=['城市'])
如果城市列的值等于上海，城市列显示true，否则显示flase
df['城市']=np.where(df['城市']=='上海','true','flase')