【发布时间】:2021-03-01 03:19:34
【问题描述】:
我正在使用 RSelenium 从网站上抓取数据表。使用循环遍历许多页面。
下面的代码成功地抓取了有问题的表(尽管失去了 UTFC 格式),但是在某些情况下,表中的条目有“删除线”,在这种情况下,忽略删除线并采取行动的代码是它不存在。
例子:
谁能帮助我在刮桌子时如何保留删除信息?
我的代码抓取表:
Data_table_html <- remDr$getPageSource()[[1]] %>%
read_html() %>%
html_table(header = FALSE, fill = TRUE)
我已经为此花费了数小时,因此任何帮助或指示都会非常有帮助,
【问题讨论】:
-
可以分享一下网址或者部分html代码吗?
-
我想在下面分享我找到的解决方案。简而言之,在 HTML 中识别具有 html_attr 为“样式”的节点可以解决问题: save % html_attr("style" ) %>% gsub("text-decoration:line-through;", "0", .) #%>% html_table(fill=TRUE)
-
好!!如果您找到了解决方案,我建议您在下面的答案框中分享。
标签: r web-scraping html-table rselenium