【问题标题】:Web scraping: Extract text in R using RVEST网页抓取:使用 RVEST 在 R 中提取文本
【发布时间】:2015-11-20 17:14:31
【问题描述】:

我正在使用 R 为大学工作,如何使用 RVEST 包提取信息“| 2015 年 11 月 20 日”?我试图获取“widget-info”类,但也带来了“widget-author”类

<div class="home-list-content">
            <span class="widget-info">
                <span class="widget-author">
                    Rúben Campanacho
                </span> 
                | 20 de Novembro de 2015
            </span>
            <h2>
                LG Pay é o sistema de pagamentos móveis da LG
            </h2>
        </div>

我的代码:

pagina <- read_html("http://www.tecnologia.com.pt")
    data <- pagina %>% 
      html_nodes(".widget-info") %>%
      html_text() %>%
      as.data.frame()

结果:

Rúben Campanacho | 20 de Novembro de 2015

我只想要| 2015 年 11 月 20 日

【问题讨论】:

    标签: r web-scraping rvest


    【解决方案1】:
    txt <- 'Rúben Campanacho | 20 de Novembro de 2015'
    
    gsub('^((\\w+)[[:space:]]){2}', '', txt)
    

    返回:

    "| 20 de Novembro de 2015"
    

    【讨论】:

      猜你喜欢
      • 2021-04-19
      • 1970-01-01
      • 2018-02-15
      • 1970-01-01
      • 2020-07-18
      • 2019-02-17
      • 2015-09-06
      • 1970-01-01
      相关资源
      最近更新 更多