【发布时间】:2017-07-12 17:43:52
【问题描述】:
所以,有时我需要从网络上获取一些数据,将其组织成一个数据框,并浪费大量时间手动进行。我一直在试图弄清楚如何优化这个过程,并且我尝试了一些 R 抓取方法,但无法正确完成,我认为可能有更简单的方法可以做到这一点,任何人都可以帮忙我要解决这个问题吗?
虚构练习:
这是一个按大洲列出国家/地区的网页:https://simple.wikipedia.org/wiki/List_of_countries_by_continents
每个国家/地区名称也是指向另一个网页的链接(特定于每个国家/地区,例如https://simple.wikipedia.org/wiki/Angola)。
作为最终结果,我希望得到一个数据框,其中观察数(行)= 列出的国家/地区数和 4 个变量(列)作为 ID=国家名称,大陆=它所属的大陆,语言=官方语言(来自国家/地区的特定网页)和人口 = 最近的人口计数(来自国家/地区的特定网页)。
为了能够到达最终数据框,我应该在 R 中遵循哪些步骤?
【问题讨论】:
标签: r dataframe screen-scraping