【发布时间】:2018-10-04 15:36:53
【问题描述】:
早上好,
我刚开始使用 R 进行抓取,我很难以有用的方式从网页中抓取元素列表。
这是我的脚本
library(rvest)
url <- read_html("https://www.pole-emploi.fr/annuaire/provins-77070")
webpage <- url %>%
html_nodes('.zone') %>%
html_text()
webpage
当我运行脚本时,所有元素看起来都挤在一起,中间没有任何空格,这是可以理解的,因为每个项目都包含在一个单独的
[1] "77114GouaixHerméNoyen-sur-SeineVilliers-sur-Seine"
[2] "77118BalloyBazoches-lès-BrayGravon"
我希望它们像这样(或用逗号分隔)
[1] "77114 Gouaix Hermé Noyen-sur-Seine Villiers-sur-Seine"
[2] "77118 Balloy Bazoches-lès-Bray Gravon"
或者在整洁的格式上更好
Postal City
77114 Gouaix
77114 Hermé
77114 Noyen-sur-Seine
77114 Villiers-sur-Seine
我试图在页面中找到其他选择器或 Xpath,但没有成功。我最多只能选择列表中的一个元素。
任何帮助将不胜感激。
提前致谢。
【问题讨论】: