【发布时间】:2021-05-31 18:11:18
【问题描述】:
我正在尝试从网页中获取文本。为了简化我的问题,让我以@RonakShah 的 Stackoverflow 帐户为例来提取信誉值。 'SelectorGadget' 显示“div,div”,我使用了以下代码:
library(rvest)
so <- read_html('https://stackoverflow.com/users/3962914/ronak-shah') %>%
html_nodes("div") %>% html_nodes("div") %>% html_text()
这给出了一个对象so,其中包含多达 307 个项目。
然后,我把对象变成了一个数据框:
so <- as.data.frame(so)
view(so)
然后,手动遍历数据框中的所有项目,直到找到正确的值so$so[69]。我的问题是如何快速找到具体的目标值。在我的实际情况中,手动操作会稍微复杂一些,因为有多个具有相同值的项目,我需要确定正确的顺序。谢谢。
【问题讨论】: