Pandas的文本数据处理
Pandas的文本处理
-
import numpy 和 import pandas 导入两个库,再导入数据,若是txt数据则加上 sep = “,” 或者sep = “\t”。
-
pandas 中有个子模块叫str,专门处理文本数据。
-
pd str 中常用的函数,还有str.len() 计算每个序列 或者列表连续长度。
-
a.value_counts() 计算每个分类的计数。
-
姓名长度已经转化成str.len() = float 格式,所以 是可以进行比较的。
DataFrame 的str常用函数
DataFrame 的str案例
-
grade 姓名那列是否包含”杨”,返回的布尔值,用grade 去接。
-
contains 返回的布尔值,要用imdb 去装,如果“中文” 是中文,返回的是错误。
-
replace 全换 或者 指定几个字换取 ,要用字典的形式去表达。
-
str.get(1) 表示截取某一列的第二个字 。
-
str.slice (0,3) 表示从某一列的第1个数开始截取,截取3 个数。
-
str.slice_repalce 截取并且进行替换。
-
cat() 里面有很多参数,比如说sep=" \t " 将名字进行拼接 = excel 中的concat 。
-
str. join( ) 加入的意思 指在各文字加入 。
DataFrame 的文本哑变量生成
- str.contains(“X”) 表示是否。
- 对imdb中的列 进行哑变量的变换,用str.get_dummies() 进行变换,之后看有没有多出一行X 。
- 必要时将最后一列删掉,依然保留的是str中的979行及11列。可以跟之前的979X9列 进行拼接。
4.删除原列,用pop ,删除原行用drop ( ,axis = 0,inplace = True) - 常用pd.concat ([a,b],axis = 1) 进行左右拼接。
哈哈,每天更新一点,没准我再也不是菜鸡,纯手打!!!!
查看更多请点击此链接,反正不要钱!