【问题标题】:Scraping a Table into R using XML package使用 XML 包将表抓取到 R 中
【发布时间】:2021-06-01 00:48:04
【问题描述】:

我正在尝试将this table 抓取到 R 中。

我正在使用XML 库通过以下命令读取数据。

acsi <- htmlParse("https://www.theacsi.org/index.php?option=com_content&view=article&id=147&catid=&Itemid=212&i=Wireless+Telephone+Service")

但是,我马上就明白了:Warning: XML content does not seem to be XML: 'ss+Telephone+Service'。我究竟做错了什么?为什么我的表格无法正确读取?

【问题讨论】:

  • @cory 当我使用他们的方法时,我仍然收到错误Error: 1: Unknown IO error2: failed to load external entity "http://www.theacsi.org/index.php?option=com_content&amp;view=article&amp;id=147&amp;catid=&amp;Itemid=212&amp;i=Wireless+Telephone+Service"

标签: r xml web-scraping html-table


【解决方案1】:

不确定您尝试过的软件包,但这里有一种使用rvest 的方法。

library(rvest)
raw <- read_html("https://www.theacsi.org/index.php?option=com_content&view=article&id=147&catid=&Itemid=212&i=Wireless+Telephone+Service")
df <- raw %>% html_nodes("table") %>% html_table()
head(df)
> head(df)
[[1]]
                           X1        X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15
1                             Base-line 95 96 97 98 99  0  1   2   3  04  05  06  07
2                  All Others           NA NA NA NA NA NA NA  NA  NA  70  65  68  68
3           TracFone Wireless           NA NA NA NA NA NA NA  NA  NA  NM  NM  NM  NM
4                    T-Mobile           NA NA NA NA NA NA NA  NA  NA  NM  64  69  70
5            Verizon Wireless           NA NA NA NA NA NA NA  NA  NA  68  67  69  71
6  Wireless Telephone Service           NA NA NA NA NA NA NA  NA  NA  65  63  66  68
7                        AT&T           NA NA NA NA NA NA NA  NA  NA  63  62  63  68
8               U.S. Cellular           NA NA NA NA NA NA NA  NA  NA  NM  NM  NM  NM
9           Sprint (T-Mobile)           NA NA NA NA NA NA NA  NA  NA  59  63  63  61
10      Nextel Communications           NA NA NA NA NA NA NA  NA  NA  NM  59   #    
11              AT&T Wireless           NA NA NA NA NA NA NA  NA  NA  61   #        
12                     Sprint           NA NA NA NA NA NA NA  NA  NA  59  63  63  61
   X16 X17 X18 X19 X20 X21 X22 X23 X24 X25 X26 X27 X28 X29                 X30
1   08  09  10  11  12  13  14  15  16  17  18  19  20  21 PreviousYear%Change
2   71  73  76  77  76  78  78  79  77  79  80  81  77  NA                -4.9
3   NM  NM  NM  NM  NM  NM  NM  77  75  77  78  78  76  NA                -2.6
4   71  71  73  70  69  68  69  70  74  73  76  76  75  NA                -1.3
5   72  74  73  72  70  73  75  71  71  74  74  74  74  NA                 0.0
6   68  69  72  71  70  72  72  70  71  73  74  75  74  NA                -1.3
7   71  67  69  66  69  70  68  70  71  72  74  74  74  NA                 0.0
8   NM  NM  NM  NM  NM  NM  NM  NM  72  74  74  74  71  NA                -4.1
9   56  63  70  72  71  71  68  65  70  73  70  69  70  NA                 1.4
10                                  NA  NA  NA  NA  NA  NA                 N/A
11                                  NA  NA  NA  NA  NA  NA                 N/A
12  56  63  70  72  71  71  68  65  70  73  70  69  NA  NA                -1.4

【讨论】:

  • 如果可能我更喜欢使用 XML
猜你喜欢
  • 2010-11-26
  • 1970-01-01
  • 2011-09-07
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2012-07-27
相关资源
最近更新 更多