-
数据说明
这是一份爬好的数据,data.frame格式。包括一些招聘信息,具体的列名和含义如下所示:
-
职位名称(occ_name)清洗
-
预览
-
清洗策略
- 需要去除无关的信息,比如符号以及数字信息
-
实现
z <- read.csv(\'zhaopin.csv\') z$occ_name <- gsub(\'[^\u4E00-\u9FA5]\',\'\',z$occ_name)
-
工资(salary)清洗
-
预览
-
清洗策略
- 去除除了数字以外的其他符号
- 能够输出工资的区间的,可能需要分列
-
实现
z$salary <- gsub(\'[^0-9-]\',\'\',z$salary) library(tidyr) z <- separate(data = z,col = salary,into = c(\'salary_L\',\'salary_H\'),sep = \'-\') z$salary_L <- as.numeric(z$salary_L) z$salary_H <- as.numeric(z$salary_H)
-
招募人数
-
预览
-
清洗策略
- 保留数字
-
实现
z$recruiting_num <- as.numeric(gsub(\'[^0-9]\',\'\',z$recruiting_num))
-
岗位信息(occ_position)清洗
-
预览
-
清洗策略
- 斜杠线去除
- 保留中文
-
实现
z$occ_position <- gsub(\'[^\u4E00-\u9FA5]\',\'\',z$occ_position)
-
岗位需求(occ_descip)清洗
-
预览
-
清洗策略
- 去除空格
- 去除制表符,换行符等
-
实现
z$occ_descrip <- gsub(\'[[:cntrl:] [:space:]]\',\'\',z$occ_descrip)
-
公司地址(company_address)清洗
-
预览
-
清洗策略
- 去除空格
- 去除换行符
-
实现
z$company_address <- gsub(\'[[:cntrl:] [:space:]]\',\'\',z$company_address)
-
清洗结果展示