Pandas基础 - 文本处理

Pandas的文本数据处理

Pandas的文本处理

Pandas的文本处理

import numpy 和 import pandas 导入两个库，再导入数据，若是txt数据则加上 sep = “,” 或者sep = “\t”。
pandas 中有个子模块叫str，专门处理文本数据。
pd str 中常用的函数，还有str.len() 计算每个序列或者列表连续长度。
a.value_counts() 计算每个分类的计数。
姓名长度已经转化成str.len() = float 格式，所以是可以进行比较的。

DataFrame 的str常用函数

Pandas基础 - 文本处理

DataFrame 的str案例

grade 姓名那列是否包含”杨”，返回的布尔值，用grade 去接。
contains 返回的布尔值，要用imdb 去装，如果“中文” 是中文，返回的是错误。
replace 全换或者指定几个字换取，要用字典的形式去表达。
str.get(1) 表示截取某一列的第二个字。
str.slice (0,3) 表示从某一列的第1个数开始截取，截取3 个数。
str.slice_repalce 截取并且进行替换。
cat() 里面有很多参数，比如说sep=" \t " 将名字进行拼接 = excel 中的concat 。
str. join( ) 加入的意思指在各文字加入。

DataFrame 的文本哑变量生成

str.contains(“X”) 表示是否。
对imdb中的列进行哑变量的变换，用str.get_dummies() 进行变换，之后看有没有多出一行X 。
必要时将最后一列删掉，依然保留的是str中的979行及11列。可以跟之前的979X9列进行拼接。

4.删除原列，用pop ，删除原行用drop ( ，axis = 0,inplace = True）
常用pd.concat ([a,b],axis = 1) 进行左右拼接。

哈哈，每天更新一点，没准我再也不是菜鸡，纯手打！！！！
查看更多请点击此链接，反正不要钱！

相关文章：

2021-12-23
2019-06-13
2021-10-16
2022-02-27
2022-03-04
2021-10-28
2022-12-23

猜你喜欢

2022-02-24
2021-11-10
2021-04-04
2022-12-23
2021-09-19
2022-03-04
2021-07-04

相关资源

下载 2023-03-28
下载 2021-06-06
下载 2023-02-01

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode