karlpearson
  • 数据说明

这是一份爬好的数据,data.frame格式。包括一些招聘信息,具体的列名和含义如下所示:

  • 职位名称(occ_name)清洗

  • 预览

  • 清洗策略

  1. 需要去除无关的信息,比如符号以及数字信息
  • 实现

z <- read.csv(\'zhaopin.csv\')
z$occ_name <- gsub(\'[^\u4E00-\u9FA5]\',\'\',z$occ_name)
  • 工资(salary)清洗

  • 预览

  • 清洗策略

  1. 去除除了数字以外的其他符号
  2. 能够输出工资的区间的,可能需要分列
  • 实现

z$salary <- gsub(\'[^0-9-]\',\'\',z$salary)
library(tidyr)
z <- separate(data = z,col = salary,into = c(\'salary_L\',\'salary_H\'),sep = \'-\')
z$salary_L <- as.numeric(z$salary_L)
z$salary_H <- as.numeric(z$salary_H)
  • 招募人数

  • 预览

  • 清洗策略

  1. 保留数字
  • 实现

z$recruiting_num <- as.numeric(gsub(\'[^0-9]\',\'\',z$recruiting_num))
  • 岗位信息(occ_position)清洗

  • 预览

 

  • 清洗策略

  1. 斜杠线去除
  2. 保留中文
  • 实现

z$occ_position <- gsub(\'[^\u4E00-\u9FA5]\',\'\',z$occ_position)
  • 岗位需求(occ_descip)清洗

  • 预览

  • 清洗策略

  1. 去除空格
  2. 去除制表符,换行符等
  • 实现

z$occ_descrip <- gsub(\'[[:cntrl:] [:space:]]\',\'\',z$occ_descrip)
  • 公司地址(company_address)清洗

  • 预览

  • 清洗策略

  1. 去除空格
  2. 去除换行符
  • 实现

z$company_address <- gsub(\'[[:cntrl:] [:space:]]\',\'\',z$company_address)
  • 清洗结果展示

 

分类:

技术点:

相关文章:

  • 2022-12-23
  • 2021-12-04
  • 2022-12-23
  • 2022-12-23
  • 2021-12-19
  • 2022-12-23
猜你喜欢
  • 2021-12-04
  • 2022-01-11
  • 2022-01-07
  • 2021-08-31
  • 2022-12-23
相关资源
相似解决方案