如何在表格中构造 Web 数据答案

【问题标题】：How to structure web data in table如何在表格中构造 Web 数据
【发布时间】：2018-08-18 00:52:26
【问题描述】：

我的第一个 R 脚本像这样抓取一个网络表格：

    RACE2<U+00A0>CLS5<U+00A0>1200M<U+00A0>ST<U+00A0>GRS<U+00A0>ARATE:(0-40)<U+00A0>GING:FAST

如何将其更改为如下所示的行和列数据框

TABLE

前 6 列我需要添加我的列名，最后 2 列我使用来自网络数据的名称

我怎样才能做到这一点

【问题讨论】：

标签： r web web-scraping

【解决方案1】：

我认为你不能，因为此时数据太乱了。

如果您运行此行来替换 <U+00A0> s

gsub("<U\\+00A0>", " ", "RACE2<U+00A0>CLS5<U+00A0>1200M<U+00A0>ST<U+00A0>GRS<U+00A0>ARATE:(0-40)<U+00A0>GING:FAST")

你会得到

RACE2 CLS5 1200M ST GRS ARATE:(0-40) GING:FAST

你可以从那里继续

library(tidyverse)
gsub("<U\\+00A0>", "\\\n", "RACE2<U+00A0>CLS5<U+00A0>1200M<U+00A0>ST<U+00A0>GRS<U+00A0>ARATE:(0-40)<U+00A0>GING:FAST") %>%
        str_split(pattern="\\\n", simplify)

产生

[[1]]
[1] "RACE2"        "CLS5"         "1200M"        "ST"           "GRS"          "ARATE:(0-40)"
[7] "GING:FAST"

但我认为您的数据包含太多缺少的属性名称，“：”分隔符太少，并且无法可靠地检测 NA 值。

【讨论】：