【问题标题】:Get RSelenium to print URL's that it's finished scraping让 Selenium 打印已完成抓取的 URL
【发布时间】:2022-09-23 18:05:57
【问题描述】:

我正在运行一个循环来使用 RSelenium 抓取大量数据。如果循环中断,我希望看到 RSelenium 停止的元素和 URL。

有没有办法在每个页面完成时打印出链接所在的元素和 url?

使用下面的打印 [[1]] [1] \"\" 就是这样。

# check completed links
complete <- rd$findElement(using = \"tag name\", \"a\")
for(url in length(complete)){
     done <- complete[[url]]
     print(done$getElementText())
 }
  • 你的代码对我来说真的没有意义。您在哪里获取特定的 URL?无论如何,答案是打印您尝试获取的 URL,然后在您完成后打印 \"done\\n\"。
  • 我考虑将它添加到这篇文章中,但它会让它变得太长。你如何让它打印 url 并在完成后完成?
  • print(url); .. get it ...; print(\"done\")

标签: r for-loop rselenium


【解决方案1】:

您可以使用getCurrentUrl() 代替getElementText()

library(RSelenium)

driver <- rsDriver(browser = c("firefox"))
remote_driver <- driver[["client"]]

remote_driver$navigate("https://www.r-project.org/")
remote_driver$getCurrentUrl()
[[1]]
[1] "https://www.r-project.org/"

【讨论】:

    猜你喜欢
    • 2021-09-05
    • 2019-06-19
    • 1970-01-01
    • 1970-01-01
    • 2021-08-11
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-01-10
    相关资源
    最近更新 更多