【问题标题】:Language detection in R with the textcat package : how to restrict to a few languages?使用 textcat 包在 R 中进行语言检测:如何限制为几种语言?
【发布时间】:2014-06-07 16:09:03
【问题描述】:

我需要使用 R 检测许多短文本的语言。 我正在使用 textcat 包,它可以在许多(比如 30 个)欧洲 语言是每种文本的一种。但是,我知道我的文本是法语或英语(或者,更一般地说,是 textcat 处理的语言的一小部分)。

如何在调用 textcat 函数时添加这些知识?

谢谢,

【问题讨论】:

  • 考虑添加您希望分类的示例文本。

标签: r nlp


【解决方案1】:

可能有效。大概您希望将语言选择限制为英语或法语以降低错误分类率。如果没有已知所需结果的示例文本,我无法测试下面的方法。但是,它似乎确实将语言选择限制为英语和法语。

my.profiles <- TC_byte_profiles[names(TC_byte_profiles) %in% c("english", "french")]
my.profiles

my.text <- c("This is an English sentence.",
             "Das ist ein deutscher Satz.",
            "Il s'agit d'une phrase française.",
            "Esta es una frase en espa~nol.")

textcat(my.text, p = my.profiles)

# [1] "english" "english" "french"  "french"

【讨论】:

    【解决方案2】:

    您还可以使用内置的 ECIMCI_profiles 实现高分类准确度。

    打电话

    textcat(my.text, p = ECIMCI_profiles)
    

    并可选择将其与 Mark Miller 的答案中的 %in% line-of-code 结合使用。

    textcatECIMCI_profiles 数据库使用更大的最大n-gram 大小1000(与TC_byte_profilesTC_char_profiles dbs 中的400 不同)。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2010-12-07
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多