【问题标题】:"rvest" not fetching the product details using html_nodes()“rvest”未使用 html_nodes() 获取产品详细信息
【发布时间】:2020-05-30 07:04:29
【问题描述】:

我使用 rvest 在亚马逊的产品搜索 results抓取产品的详细信息(名称、价格和可用性)。我能够使用read_html() 获取网页,但我无法获取产品的详细信息(名称、价格和可用性)。该页面具有<span> 标记,其类为class = "a-size-medium a-color-base a-text-normal"。我用过html_nodes("span.a-size-medium a-color-base a-text-normal"),但得到了NA

这是可重现的代码:

library(rvest)
library(xml2)

url <- "https://www.amazon.in/s?k=Smartphone&rh=n%3A1389401031&ref=nb_sb_noss"

page <- read_html(url)

data <- page%>%
  html_node("span.a-size-medium a-color-base a-text-normal") %>%
  html_text()

print(data)

【问题讨论】:

    标签: html r web-scraping rvest xml2


    【解决方案1】:

    你只需要稍微改变一下css选择器。我能够得到名称和价格,可用性有点棘手:/

    library(rvest)
    library(xml2)
    
    url <- "https://www.amazon.in/s?k=Smartphone&rh=n%3A1389401031&ref=nb_sb_noss"
    
    page <- read_html(url)
    
    name <- page %>% html_nodes(".a-size-medium.a-color-base.a-text-normal") %>% html_text()
    
    price <- page %>% html_nodes(".a-price-whole") %>% html_text()
    

    【讨论】:

    • 感谢指正!我会寻找可用性并更新结果。
    猜你喜欢
    • 2013-04-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-05-28
    • 1970-01-01
    • 2017-07-06
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多