【问题标题】:How do you use a LIWC-formatted dictionary with the R package Quanteda?你如何在 R 包 Quanteda 中使用 LIWC 格式的字典?
【发布时间】:2015-11-22 20:23:42
【问题描述】:

由于 LIWC 软件和字典是专有的,我很高兴地看到它们似乎与仍在开发但出色的 R 包 Quanteda 配合得很好。

R 包 Quanteda demonstrates its use with a LIWC-format dictionary 的文档,SO post 也是如此。

我购买了 LIWC 2015,但不知道如何将字典导出为 PDF 以外的应用程序之外。

【问题讨论】:

标签: r quanteda


【解决方案1】:

应 Receptivity 的要求编辑(“LIWC 的商业方面”)

我不会建议您如何从包含需要购买的软件的 Java 存档 (.jar) 文件中提取英语 LIWC 2015 词典。

与以前版本的 LIWC 软件不同,字典文件不直接与软件一起分发。但是使用您合法购买的序列号登录,您可以从http://dictionaries.liwc.net下载LIWC2007和LIWC2001(取决于语言)的非英文字典,包括德文、荷兰文、意大利文、俄文、法文和西班牙文版本。

如果您有一个格式与 LIWC 字典相同的字典,例如 Moral Foundations dictionary,那么这将起作用:

require(quanteda)
mfdict <- dictionary(file = "http://www.moralfoundations.org/sites/default/files/files/downloads/moral%20foundations%20dictionary.dic", 
                    format = "LIWC")

加载道德基础字典并将其转换为 quanteda 格式。您可以使用字典来构建文档特征矩阵,使用

dfm(x, dictionary = mfdict)

【讨论】:

  • 非常感谢,我能够做到这一点并下载非英语词典。当我尝试加载字典(在 Quanteda 中)时,出现以下警告:警告消息:1: In readLIWCdict(file, maxcats = maxcats, enc = enc) : NAs introduced by coercion 2: In unique(c(as.numeric(x), as.numeric(y))) : NAs introduced by coercion 3: In unique(c(as.numeric(x), as.numeric(y))) : NAs introduced by coercion - 对我可能出错的地方有什么想法吗?
  • 我不认为这是一个错误,但我会调查为什么会出现警告。问题是 LIWC 字典文件并不总是严格遵循自己的格式规则!
  • 想知道我是否保存或读取错误,但使用 dfm() 时出现以下错误:Error in which(stringi::stri_detect_regex(uniqueFeatures, paste(x, collapse = "|"), : error in evaluating the argument 'x' in selecting a method for function 'which': Error in stringi::stri_detect_regex(uniqueFeatures, paste(x, collapse = "|"), : Incorrectly nested parentheses in regexp pattern. (U_REGEX_MISMATCHED_PAREN)
  • 请在 Github 上提出问题,我们会解决的。
  • 作为 Receptiviti 的 CTO(我们是 LIWC 的商业方),我想澄清一下,Ken Benoit 的建议违反了使用条款。具体引用条款和条件“LIWC 软件和字典不能集成或编码到其他计算机程序或系统中,并且自动化不能应用于 LIWC 软件或字典。” Receptiviti为此提供了一个api。
猜你喜欢
  • 1970-01-01
  • 2017-02-23
  • 1970-01-01
  • 1970-01-01
  • 2019-08-05
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多