【问题标题】:Having trouble figuring out how to approach this exercise #R scraping #extracting web data无法弄清楚如何进行此练习 #R 抓取 #extracting Web 数据
【发布时间】:2017-07-12 17:43:52
【问题描述】:

所以,有时我需要从网络上获取一些数据,将其组织成一个数据框,并浪费大量时间手动进行。我一直在试图弄清楚如何优化这个过程,并且我尝试了一些 R 抓取方法,但无法正确完成,我认为可能有更简单的方法可以做到这一点,任何人都可以帮忙我要解决这个问题吗?

虚构练习:

这是一个按大洲列出国家/地区的网页:https://simple.wikipedia.org/wiki/List_of_countries_by_continents

每个国家/地区名称也是指向另一个网页的链接(特定于每个国家/地区,例如https://simple.wikipedia.org/wiki/Angola)。

作为最终结果,我希望得到一个数据框,其中观察数(行)= 列出的国家/地区数和 4 个变量(列)作为 ID=国家名称,大陆=它所属的大陆,语言=官方语言(来自国家/地区的特定网页)和人口 = 最近的人口计数(来自国家/地区的特定网页)。

为了能够到达最终数据框,我应该在 R 中遵循哪些步骤?

【问题讨论】:

    标签: r dataframe screen-scraping


    【解决方案1】:

    This will probably get you most of the way。在下载所需的内容后,您可能会想要使用不同的节点,并且可能会进行一些字符串操作(清理)。

    【讨论】:

      猜你喜欢
      • 2013-04-10
      • 1970-01-01
      • 2014-12-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-12-18
      • 1970-01-01
      相关资源
      最近更新 更多