【发布时间】:2016-10-20 14:06:41
【问题描述】:
我正在尝试使用 rvest 从棒球参考网站上抓取一张桌子。我的代码是:
url="http://www.baseball-reference.com/leagues/NL/2016-standard-batting.shtml"
css=""#players_standard_batting.sortable.stats_table"
read_html(url) %>% html_node(css) %>% html_table()->nlbatting.raw
此时表格有点乱码,应该有空格的地方有一个'Â'。我试过了
nlbatting.raw %>% mutate(Name=repair_encoding(Name))->nlbatting.raw
这让一切看起来都很好,但后来我的行为真的很奇怪。例如:
nlbatting.raw$Name[86]=="Yoenis Cespedes"
FALSE
和:
gsub(" ","_",nlbatting.raw$Name[86])
"Yoenis Cespedes"
我在read_html() 中尝试了不同的编码参数,但没有任何变化。我试着不理会编码,只是把'Â'去掉,但有同样的问题。任何帮助都会很棒,在此先感谢!
附言。长期潜伏的第一次海报,如果我错过了一些明显的东西,对不起
【问题讨论】: