网页抓取：使用 RVEST 在 R 中提取文本答案

【问题标题】：Web scraping: Extract text in R using RVEST网页抓取：使用 RVEST 在 R 中提取文本
【发布时间】：2015-11-20 17:14:31
【问题描述】：

我正在使用 R 为大学工作，如何使用 RVEST 包提取信息“| 2015 年 11 月 20 日”？我试图获取“widget-info”类，但也带来了“widget-author”类

<div class="home-list-content">
            <span class="widget-info">
                <span class="widget-author">
                    Rúben Campanacho
                </span> 
                | 20 de Novembro de 2015
            </span>
            <h2>
                LG Pay é o sistema de pagamentos móveis da LG
            </h2>
        </div>

我的代码：

pagina <- read_html("http://www.tecnologia.com.pt")
    data <- pagina %>% 
      html_nodes(".widget-info") %>%
      html_text() %>%
      as.data.frame()

结果：

Rúben Campanacho | 20 de Novembro de 2015

我只想要| 2015 年 11 月 20 日

【问题讨论】：

标签： r web-scraping rvest

【解决方案1】：

txt <- 'Rúben Campanacho | 20 de Novembro de 2015'

gsub('^((\\w+)[[:space:]]){2}', '', txt)

"| 20 de Novembro de 2015"

【讨论】：