使用“rJava”和“tm.plugin.webmining”包的文本挖掘问题答案

【问题标题】：Problems text mining using the ‘rJava’ and ‘tm.plugin.webmining’ packages使用“rJava”和“tm.plugin.webmining”包的文本挖掘问题
【发布时间】：2017-12-26 20:28:05
【问题描述】：

如果我对这个主题的格式不正确，我深表歉意这是我第一次在社区中发帖，我会尽我所能。我一直在努力解决这个问题，但一直在努力解决它。我目前正在关注“Text Mining with R: A Tidy Data Approach”一书，并且正在使用“tm.plugin.webmining”包对金融文章进行情绪分析。最初的问题是，当我尝试从库中加载包时，它会报告错误。

错误：“tm.plugin.webmining”的包或命名空间加载失败： .onLoad 在“rJava”的 loadNamespace() 中失败，详细信息：调用： dyn.load(file, DLLpath = DLLpath, ...) 错误：无法加载共享对象“/Library/Frameworks/R.framework/Versions/3.4/Resources/library/rJava/libs/rJava.so”： dlopen（/Library/Frameworks/R.framework/Versions/3.4/Resources/library/rJava/libs/rJava.so, 6）：库未加载：@rpath/libjvm.dylib 引用自：/Library/Frameworks/R.framework/Versions/3.4/Resources/library/rJava/libs/rJava.so 原因：找不到图片

在做了一些研究后，我发现这与 R 和 Java 在 mac OS High Sierra 上的通信方式有关。所以为了解决这个问题，我遵循了这篇文章。它似乎奏效了。一旦我用 java 和 r 解决了这个问题，我终于能够加载“tm.plugin.webmining”包。但是当我尝试运行书中的示例来加载语料库时，出现以下错误。

StartTag：无效的元素名称文档末尾的额外内容 mutate_impl(.data, dots) 中的错误：评估错误：1：StartTag：元素名称无效 2：文档末尾的额外内容

我似乎无法在任何地方找到有关此问题的信息，并且我自己也没有足够的经验来解决此问题，因此非常感谢我可以尝试解决此问题的任何见解或想法。下面我发布了我运行的代码，它给了我这个问题。提前谢谢你。

`library(tm.plugin.webmining)

library(purrr)

library(dplyr)

company <- c("Microsoft", "Apple", "Google", "Amazon", 
"Facebook","IBM", "Yahoo", "Netflix") 
symbol <- c("MSFT", "AAPL", "GOOG", "AMZN", "FB", "IBM", "YHOO", 
"NFLX")

download_articles <- function( symbol) { 
WebCorpus(GoogleFinanceSource(paste0("NASDAQ:", symbol)))
}

stock_articles <- data_frame(company = company, symbol = symbol) %>% 
mutate(corpus = map(symbol, download_articles))`

【问题讨论】：

为什么用java标记？
Dylan，您已经解决的任何问题（如 R-Java 交互）都应该从问题中删除，因为它们无关紧要。
我在 10 天前发布了同样的问题，但没有答案...stackoverflow.com/questions/47790148/…
@joeC 我将其标记为 java，因为最初的问题与 mac 和 java 交互有关，我认为持续的问题与 rJava 与 'tm.plugin 交互的方式有关，网络挖矿包
@DylanEdmonds 没关系，可以删除标签。 Java 不是最好的标签，因为它保留了与语言直接相关的问题，但情况并非如此。

标签： r finance tm web-mining

【解决方案1】：

我在执行代码的时候遇到了同样的问题，找到了一个锻炼方法，如下图：

library(tm.plugin.webmining)
library(purrr)

company <- c("Microsoft", "Apple", "Google",
             "Amazon", "Facebook", "Twitter",
             "IBM", "Yahoo", "Netflix")

symbol <- c("MSFT", "AAPL", "GOOG", "AMZN", "FB",
            "TWTR", "IBM", "YHOO", "NFLX")

download_articles <- function(symbol) {
  WebCorpus(YahooFinanceSource(paste0("NASDAQ:", symbol)))
}

stock_articles <- data_frame(company = company,
                             symbol = symbol) %>%
  mutate(corpus = map(symbol, download_articles))

在 WebCorpus 函数中，使用YahooFinanceSource()，而不是GoogleFinanceSource()。

【讨论】：