【问题标题】:How to resolve Java error when extracting tables from pdf using Tabulizer in R使用R中的Tabulizer从pdf中提取表格时如何解决Java错误
【发布时间】:2021-09-30 15:19:29
【问题描述】:

我正在尝试使用R 中的tabulizer 包从pdf 中提取表。我运行以下行:

table <- extract_tables('https://fm.dk/media/17137/oekonomisk-redegoerelse-august-2019_weba.pdf', pages = 20)

但是我不断收到此错误:

.jcall("RJavaTools", "Ljava/lang/Object;", "invokeMethod", cl, : java.lang.IllegalAccessException: 类 RJavaTools 不能 访问类 java.util.ArrayList$Itr 的成员(在模块 java.base 中) 带有修饰符“public”

我能够从pdf 中提取元数据,所以我很确定tabulizer 包的安装没有问题,但更多的是java 问题,我不是很有经验。

【问题讨论】:

  • 听起来像是依赖关系的问题。

标签: java r pdf error-handling tabulizer


【解决方案1】:

好的,至少在我的机器上,我明白了这一点。使用this hintswsoyeetabulizer 的GitHub 页面上的sort-of similar open issue,我一直支持Java 8。在新的MBP 上,这意味着getting Java from Azul,因为Oracle 还没有(还?) 为该版本推出 arm64 版本。

我确定there's a more elegant way,但我不使用Java,所以我在安装zulu-8.jdk 之前安装了trashed all the other Java versions。 (我也不得不trash the plugin,但是ymmv)。成功了:

library(tabulizer)
table <- extract_tables('https://fm.dk/media/17137/oekonomisk-redegoerelse-august-2019_weba.pdf', pages = 20)
table[[1]]
#>       [,1]                                                             [,2]  
#>  [1,] "Tabel 1.1"                                                      ""    
#>  [2,] "Centrale skøn vedrørende tilrettelæggelsen af finanspolitikken" ""    
#>  [3,] "2018"                                                           "2019"
#>  [4,] "Strukturel saldo, pct. af strukturelt BNP 0,2"                  "-0,1"
#>  [5,] "Faktisk saldo, pct. af BNP 0,6"                                 "1,9" 
#>  [6,] "ØMU-gæld, pct. af BNP 34,1"                                     "33,7"
#>  [7,] "Offentlig forbrugsvækst, pct.1) 0,7"                            "0,8" 
#>  [8,] "Ét-årig finanseffekt, pct. af BNP2) -0,2"                       "-0,1"
#>  [9,] "Outputgab, pct.3) 0,1"                                          "0,8" 
#> [10,] "Beskæftigelsesgab, pct.3) 0,2"                                  "0,7" 
#>       [,3]  
#>  [1,] ""    
#>  [2,] ""    
#>  [3,] "2020"
#>  [4,] "0,0" 
#>  [5,] "0,4" 
#>  [6,] "33,5"
#>  [7,] "0,7" 
#>  [8,] "0,0" 
#>  [9,] "1,0" 
#> [10,] "0,9"

reprex package (v2.0.1) 于 2021 年 12 月 14 日创建

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2022-01-05
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-08-25
    • 2019-06-21
    • 1970-01-01
    相关资源
    最近更新 更多