【问题标题】:How to structure web data in table如何在表格中构造 Web 数据
【发布时间】:2018-08-18 00:52:26
【问题描述】:

我的第一个 R 脚本像这样抓取一个网络表格:

    RACE2<U+00A0>CLS5<U+00A0>1200M<U+00A0>ST<U+00A0>GRS<U+00A0>ARATE:(0-40)<U+00A0>GING:FAST

如何将其更改为如下所示的行和列数据框

TABLE

前 6 列我需要添加我的列名,最后 2 列我使用来自网络数据的名称

我怎样才能做到这一点

【问题讨论】:

    标签: r web web-scraping


    【解决方案1】:

    我认为你不能,因为此时数据太乱了。

    如果您运行此行来替换 &lt;U+00A0&gt; s

    gsub("<U\\+00A0>", " ", "RACE2<U+00A0>CLS5<U+00A0>1200M<U+00A0>ST<U+00A0>GRS<U+00A0>ARATE:(0-40)<U+00A0>GING:FAST")
    

    你会得到

    RACE2 CLS5 1200M ST GRS ARATE:(0-40) GING:FAST

    你可以从那里继续

    library(tidyverse)
    gsub("<U\\+00A0>", "\\\n", "RACE2<U+00A0>CLS5<U+00A0>1200M<U+00A0>ST<U+00A0>GRS<U+00A0>ARATE:(0-40)<U+00A0>GING:FAST") %>%
            str_split(pattern="\\\n", simplify)
    

    产生

    [[1]]
    [1] "RACE2"        "CLS5"         "1200M"        "ST"           "GRS"          "ARATE:(0-40)"
    [7] "GING:FAST"   
    

    但我认为您的数据包含太多缺少的属性名称,“:”分隔符太少,并且无法可靠地检测 NA 值。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2017-08-29
      • 2014-11-06
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-06-04
      • 2018-07-15
      相关资源
      最近更新 更多