pandas的基本用法(熟记)

简单的几百条数据,足够练习了。提取码:h9z1
0. 导入包
import pandas as pd

  1. 导入csv文件
    data=pd.read_csv('D:/PyCharm Community Edition 2019.1.1/Recruit_Analyse/lagou.csv',encoding='utf-8')

  2. 转给DataFrame类型
    df=pd.DataFrame(data)

  3. 基本的维度查看,也就行和列
    df.shape
    pandas笔记

  4. 数据表的基本信息(维度,列名称,数据格式,所占空间等)
    df.info
    pandas笔记

  5. 每一列的数据格式
    df.dtypes
    pandas笔记

  6. 某一列的格式
    df['公司全名'].dtype
    pandas笔记

  7. 查看空值:
    df.isnull() flash代表不是空值
    pandas笔记

  8. 查看某一列的空值
    df['城市'].isnull()
    pandas笔记

  9. 查看某一列的唯一值 ,重复的已经被过滤掉了
    df['城市'].unique()
    pandas笔记

  10. 查看数据表的值
    df.values
    pandas笔记

  11. 查看列名称
    df.columns
    pandas笔记

  12. 查看前5行的数据
    df.head()
    查看前10行的数据
    df[:10]
    pandas笔记

  13. 默认查看后5行
    df.tail()
    pandas笔记

  14. 用数据0填充空值 (空值:在pandas中的空值是""),缺失值:在dataframe中为nan或者naT(缺失时间),在series中为none或者nan即可
    df.fillna(value=0)

  15. 清除字段的字符空格
    df['福利待遇']=df['福利待遇'].map(str.strip)

  16. 大小写转换
    df[‘salary’]=df[‘salary’].str.lower()

  17. 更改数据格式
    df['岗位id'].astype('str')

  18. 更改列名称,只对当前df有效
    df.rename(columns={'岗位id':'id'})
    pandas笔记
    drop_duplicates():
    subset : column label or sequence of labels, optional
    用来指定特定的列,默认所有列
    keep : {‘first’, ‘last’, False}, default ‘first’
    删除重复项并保留第一次出现的项
    inplace : boolean, default False
    是直接在原来数据上修改还是保留一个副本

  19. 删除之后出现的重复值
    df[‘岗位id’].drop_duplicates(keep=’last’)

  20. 设置索引列
    df.set_index('岗位id')

  21. 按照特定列的值排序
    df.sort_values(by=['城市'])

  22. 如果城市列的值等于上海,城市列显示true,否则显示flase
    df['城市']=np.where(df['城市']=='上海','true','flase')

相关文章: