【发布时间】:2018-07-01 18:03:08
【问题描述】:
我有一个学校列表,但其中一些是排名的。我想删除学校的排名(在字符串的开头)。学校排名的时候是这样的:
(3) Trinity
但是,有些学校的名称末尾有括号,例如:
Concordia (Minn.)
所以如果括号在字符串的末尾,我不想删除它。
我不太确定如何执行此操作,但我假设我需要正则表达式。
要获取我的数据:
library(dplyr)
library(rvest)
library(purrr)
page_num <- seq(4, 16, by = 1) %>%
paste("/", sep = "") %>%
{page_num[-10]}
site <- paste("http://www.uscho.com/scoreboard/division-iii
men/20172018/list-", page_num, sep = "")
get_opponent <- function(x) {
read_html(site[x]) %>%
html_nodes("td:nth-child(2)") %>%
html_text()
}
opponents <- map(seq(1, length(page_num)), get_opponent) %>%
unlist() %>%
tibble()
opponents
【问题讨论】:
-
如果您想尝试正则表达式,请访问
regex101.com
标签: r regex string data-cleaning