【发布时间】:2020-02-13 18:18:19
【问题描述】:
我正在尝试使用 rvest 为酒店提取设施。
library(rvest)
hotel_url="https://www.tripadvisor.com/Hotel_Review-g187791-d13494726-Reviews-Palazzo_Caruso-Rome_Lazio.html"
amenities<-hotel%>%
html_node(".hotels-hr-about-amenities-AmenityGroup__amenitiesList--3MdFn")%>%
html_text()
生成的文本不会将一种便利设施与另一种分开:
[1] "附近有收费私人停车场免费高速上网 (WiFi)咖啡店自行车之旅徒步旅行租车服务传真/复印行李寄存免费网络Wifi公共wifi上网提供早餐客房内早餐礼宾服务行政酒廊无烟酒店阳光露台24 小时前台私人入住/退房洗衣服务"
有没有办法在便利设施之间添加分隔符(例如“;”)?
【问题讨论】:
-
gsub("([a-z])([A-Z])", "\\1 \\2", string)。我知道(Wi Fi)Coffee仍然是个问题,但也许你会找到答案。我在手机自动取款机上。
标签: r web-scraping rvest stringr