【问题标题】:R - Write a HTML file from URL/HTML Object/HTML ResponseR - 从 URL/HTML 对象/HTML 响应写入 HTML 文件
【发布时间】:2016-10-04 12:21:00
【问题描述】:

我想使用 R 中的 URL 保存 HTML 文件。 我试图在网站的 URL 上分别使用 httrrvest 包的 GETread_html 函数后保存响应对象,我想保存的 HTML。但这并不能保存网站的实际内容。

url = "https://facebook.com"
get_object = httr::GET(url); save(get_object, "file.html")
html_object = rvest::read_html(url); save(html_object, "file.html")

这些都不能将实际网站的正确输出(即 .html 文件中的网页 HTML 内容)保存在 HTML 文件中。

【问题讨论】:

  • 什么是“正确”的输出,你得到了什么?
  • 我正在寻找的正确输出是file.html 文件中网页的 HTML 内容我在file.html 文件中发现了一些垃圾。

标签: web rvest httr


【解决方案1】:

使用str(object) 找出您正在处理的内容。在这两种情况下,您都试图将非文本写入文本文件。

这是获取文本并使用您的两个库编写它的方法...

url = "https://facebook.com"

library(httr)
get_object = GET(url)
cat(content(get_object, "text"), file="temp.html")

library(rvest)
html_object = read_html(url)
write_xml(html_object, file="temp.html")

【讨论】:

    猜你喜欢
    • 2021-04-29
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-05-10
    • 2014-04-20
    • 1970-01-01
    相关资源
    最近更新 更多