【发布时间】:2015-11-18 16:36:13
【问题描述】:
我正在尝试从知识网络上的 75,000 篇文章中收集数据。所有数据都可以在每篇文章的网页上查看。作为编程的绝对初学者,我不确定除了手动之外如何完成。有没有我可以在 R 或任何其他平台上使用的代码来直接从网页中提取数据而无需下载所有文章?
【问题讨论】:
标签: r web-scraping data-collection
我正在尝试从知识网络上的 75,000 篇文章中收集数据。所有数据都可以在每篇文章的网页上查看。作为编程的绝对初学者,我不确定除了手动之外如何完成。有没有我可以在 R 或任何其他平台上使用的代码来直接从网页中提取数据而无需下载所有文章?
【问题讨论】:
标签: r web-scraping data-collection
rvest 是一个非常好的用于抓取一般网络数据的 R 包。它几乎可以完成 python 库 Beautiful Soup 或 Scrapy 所做的一切。
XML 是另一个可用于网页抓取的软件包。
要抓取 Twitter,您可以使用 twitteR 包和 Facebook 的 Rfacebook 包。
使用 RTidyHTML 包来纠正 HTML 中的错误。
【讨论】: