Pandas的文本处理

  1. import numpy 和 import pandas 导入两个库,再导入数据,若是txt数据则加上 sep = “,” 或者sep = “\t”。
    Pandas基础 - 文本处理

  2. pandas 中有个子模块叫str,专门处理文本数据。
    Pandas基础 - 文本处理

  3. pd str 中常用的函数,还有str.len() 计算每个序列 或者列表连续长度。
    Pandas基础 - 文本处理
    Pandas基础 - 文本处理
    Pandas基础 - 文本处理

  4. a.value_counts() 计算每个分类的计数。
    Pandas基础 - 文本处理

  5. 姓名长度已经转化成str.len() = float 格式,所以 是可以进行比较的。
    Pandas基础 - 文本处理

DataFrame 的str常用函数

Pandas基础 - 文本处理

DataFrame 的str案例

  1. grade 姓名那列是否包含”杨”,返回的布尔值,用grade 去接。
    Pandas基础 - 文本处理

  2. contains 返回的布尔值,要用imdb 去装,如果“中文” 是中文,返回的是错误。
    Pandas基础 - 文本处理

  3. replace 全换 或者 指定几个字换取 ,要用字典的形式去表达。
    Pandas基础 - 文本处理

  4. str.get(1) 表示截取某一列的第二个字 。
    Pandas基础 - 文本处理

  5. str.slice (0,3) 表示从某一列的第1个数开始截取,截取3 个数。
    Pandas基础 - 文本处理

  6. str.slice_repalce 截取并且进行替换。
    Pandas基础 - 文本处理

  7. cat() 里面有很多参数,比如说sep=" \t " 将名字进行拼接 = excel 中的concat 。
    Pandas基础 - 文本处理

  8. str. join( ) 加入的意思 指在各文字加入 。
    Pandas基础 - 文本处理

DataFrame 的文本哑变量生成

  1. str.contains(“X”) 表示是否。
    Pandas基础 - 文本处理
  2. 对imdb中的列 进行哑变量的变换,用str.get_dummies() 进行变换,之后看有没有多出一行X 。
    Pandas基础 - 文本处理
  3. 必要时将最后一列删掉,依然保留的是str中的979行及11列。可以跟之前的979X9列 进行拼接。
    Pandas基础 - 文本处理
    4.删除原列,用pop ,删除原行用drop ( ,axis = 0,inplace = True)
    Pandas基础 - 文本处理
  4. 常用pd.concat ([a,b],axis = 1) 进行左右拼接。
    Pandas基础 - 文本处理

哈哈,每天更新一点,没准我再也不是菜鸡,纯手打!!!!
查看更多请点击此链接,反正不要钱!

相关文章:

  • 2021-12-23
  • 2019-06-13
  • 2021-10-16
  • 2022-02-27
  • 2022-03-04
  • 2021-10-28
  • 2022-12-23
猜你喜欢
  • 2022-02-24
  • 2021-11-10
  • 2021-04-04
  • 2022-12-23
  • 2021-09-19
  • 2022-03-04
  • 2021-07-04
相关资源
相似解决方案