用R去做文本处理

数据说明

这是一份爬好的数据，data.frame格式。包括一些招聘信息，具体的列名和含义如下所示：

职位名称（occ_name）清洗
预览

清洗策略

需要去除无关的信息，比如符号以及数字信息

实现

z <- read.csv(\'zhaopin.csv\')
z$occ_name <- gsub(\'[^\u4E00-\u9FA5]\',\'\',z$occ_name)

工资（salary）清洗
预览

清洗策略

去除除了数字以外的其他符号
能够输出工资的区间的，可能需要分列

实现

z$salary <- gsub(\'[^0-9-]\',\'\',z$salary)
library(tidyr)
z <- separate(data = z,col = salary,into = c(\'salary_L\',\'salary_H\'),sep = \'-\')
z$salary_L <- as.numeric(z$salary_L)
z$salary_H <- as.numeric(z$salary_H)

招募人数
预览

清洗策略

保留数字

实现

z$recruiting_num <- as.numeric(gsub(\'[^0-9]\',\'\',z$recruiting_num))

岗位信息（occ_position）清洗
预览

清洗策略

斜杠线去除
保留中文

实现

z$occ_position <- gsub(\'[^\u4E00-\u9FA5]\',\'\',z$occ_position)

岗位需求（occ_descip）清洗
预览

清洗策略

去除空格
去除制表符，换行符等

实现

z$occ_descrip <- gsub(\'[[:cntrl:] [:space:]]\',\'\',z$occ_descrip)

公司地址（company_address）清洗
预览

清洗策略

去除空格
去除换行符

实现

z$company_address <- gsub(\'[[:cntrl:] [:space:]]\',\'\',z$company_address)

清洗结果展示

数据说明

职位名称（occ_name）清洗

预览

清洗策略

实现

工资（salary）清洗

预览

清洗策略

实现

招募人数

预览

清洗策略

实现

岗位信息（occ_position）清洗

预览

清洗策略

实现

岗位需求（occ_descip）清洗

预览

清洗策略

实现

公司地址（company_address）清洗

预览

清洗策略

实现

清洗结果展示