R Webscrape 函数 - 仅索引向量返回 1 个结果答案

【问题标题】：R Webscrape Function - Indexing Vector Only Returns 1 ResultR Webscrape 函数 - 仅索引向量返回 1 个结果
【发布时间】：2014-03-19 17:10:06
【问题描述】：

我有一个从循环中调用的函数。基本思想是加载一个 URL 列表并构建一个数据框，其中每一行是一个 URL，每一列是我感兴趣的属性。当我最初运行它时，我没有包含索引（末尾的方括号），它工作正常，直到我点击一个在页面上有多个元素的 URL。所以，我把它改成了下面的代码，没有报错，但是无论我给它多少个 URL，我的数据框中都只得到一行。

    require(RCurl)
    require(XML)

    scrp.getDtls <- function(url){
      src = getURL(url,encoding="UTF-8")
      prsd = htmlParse(src)
      title = xpathSApply(prsd, "//meta[@name='title']/@content")[1] #added to return first element only
      brand = xpathSApply(prsd, "//meta[@itemprop='brand']/@content")[1]
      model = xpathSApply(prsd, "//meta[@itemprop='model']/@content")[1]
      upc = xpathSApply(prsd, "//meta[@itemprop='productID']/@content")[1]
      price = xpathSApply(prsd, "//div/meta[@itemprop='price']/@content")[1]
      x = data.frame(title,brand,model,upc,price)
    }

    urls = read.csv("urls.csv", header=FALSE)

    x = NA
    for(url in urls){
      x = rbind(x,scrp.getDtls(url))
    }

    x = x[-1,]
    View(x)

    #CSV file partial contents
    "http://www.walmart.com/ip/Suave-Naturals-Ocean-Breeze-Shampoo-22.5-oz/10293577"
    "http://www.walmart.com/ip/Gillette-Fusion-Cartridges-4-count/14071267"
    "http://www.walmart.com/ip/Sensodyne-Pronamel-Mint-Essence-Toothpaste-4-oz/10316819"
    "http://www.walmart.com/ip/Speed-Stick-Ocean-Surf-Deodorant-3-oz/11965072"

谢谢:)

【问题讨论】：

您的for 循环不太正确。查看here 以获取类似的示例。

标签： r web-scraping

【解决方案1】：

这是你想要的吗？

require(RCurl)
require(XML)

函数定义

scrp_getdtls <- function(url){
  src = getURL(url,encoding="UTF-8")
  prsd = htmlParse(src)
  title = xpathSApply(prsd, "//meta[@name='title']/@content")[1] #added to return first element only
  brand = xpathSApply(prsd, "//meta[@itemprop='brand']/@content")[1]
  model = xpathSApply(prsd, "//meta[@itemprop='model']/@content")[1]
  upc = xpathSApply(prsd, "//meta[@itemprop='productID']/@content")[1]
  price = xpathSApply(prsd, "//div/meta[@itemprop='price']/@content")[1]
  data.frame(title,brand,model,upc,price)
}

网址

urls <- c("http://www.walmart.com/ip/Suave-Naturals-Ocean-Breeze-Shampoo-22.5-oz/10293577",
"http://www.walmart.com/ip/Gillette-Fusion-Cartridges-4-count/14071267",
"http://www.walmart.com/ip/Sensodyne-Pronamel-Mint-Essence-Toothpaste-4-oz/10316819",
"http://www.walmart.com/ip/Speed-Stick-Ocean-Surf-Deodorant-3-oz/11965072")

使用lapply 将每个url 传递给函数，并使用rbind 和 do.call 合并行。

out <- lapply(urls, scrp_getdtls)
do.call(rbind, out)

##                                                     title       brand
## content      Suave Naturals Ocean Breeze Shampoo, 22.5 oz       Suave
## content1              Gillette Fusion Cartridges, 4 count    Gillette
## content2 Sensodyne Pronamel Mint Essence Toothpaste, 4 oz   Sensodyne
## content3           Speed Stick Ocean Surf Deodorant, 3 oz Speed Stick
##             model          upc price
## content     89280 079400832801   1.5
## content1 SFS ONLY 047400156579 15.97
## content2    83050 310158830504  4.92
## content3    93008 022200930086  1.98

【讨论】：