【问题标题】:R: Capturing Strike-Through Text Using RSeleniumR:使用 RSelenium 捕获删除线文本
【发布时间】:2021-03-01 03:19:34
【问题描述】:

我正在使用 RSelenium 从网站上抓取数据表。使用循环遍历许多页面。

下面的代码成功地抓取了有问题的表(尽管失去了 UTFC 格式),但是在某些情况下,表中的条目有“删除线”,在这种情况下,忽略删除线并采取行动的代码是它不存在。

例子:

但在 R 中记录为

谁能帮助我在刮桌子时如何保留删除信息?

我的代码抓取表:

Data_table_html <- remDr$getPageSource()[[1]] %>% 
                                  read_html() %>%
                                  html_table(header = FALSE, fill = TRUE)

我已经为此花费了数小时,因此任何帮助或指示都会非常有帮助,

【问题讨论】:

  • 可以分享一下网址或者部分html代码吗?
  • 我想在下面分享我找到的解决方案。简而言之,在 HTML 中识别具有 html_attr 为“样式”的节点可以解决问题: save % html_attr("style" ) %>% gsub("text-decoration:line-through;", "0", .) #%>% html_table(fill=TRUE)
  • 好!!如果您找到了解决方案,我建议您在下面的答案框中分享。

标签: r web-scraping html-table rselenium


【解决方案1】:

我想在下面分享我找到的解决方案。简而言之,在 HTML 中识别具有 html_attr 作为“样式”的节点就可以了:

saving &lt;- html_nodes((remDr$getPageSource()[[1]]), xpath='your xpath') %&gt;% html_attr("style") %&gt;% gsub("text-decoration:line-through;", "0", .) #%&gt;% html_table(fill=TRUE)

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2016-06-06
    • 1970-01-01
    • 2013-12-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多