【问题标题】:What is the data dictionary in NLP?NLP 中的数据字典是什么?
【发布时间】:2015-12-25 01:35:52
【问题描述】:

我是 NLP 及其概念的新手。我目前正在尝试使用来自 Apache 的 OpenNLP。当我尝试使用 blog 中所示的解析器工具时,我得到如下输出:

Input: Shutdown all active devices

Output: 
(TOP(VP(VB Shutdown)
(NP(DT all)
    (JJ active)
    (NNS devices))))

我无法理解所有首字母缩略词的含义。其中一些我可以从Stanford's OpenNLP implementation 中理解。但不是全部。

谁能指出一些正确的方向,我如何理解它,以及我的代码如何理解所说的内容。

【问题讨论】:

  • 链接“Stanford's OpenNLP...”后面的 URL 似乎放错了位置?它指向 Apache Stanbol,这是一个“旨在使用语义服务扩展传统内容管理系统”的项目。当然,这就是你的意思?

标签: java machine-learning nlp stanford-nlp opennlp


【解决方案1】:

首先,学习任何科目都需要时间,所以不要着急,否则你会迷惑自己。您看到的输出语法是一棵树,它采用一系列列表和嵌入列表的形式。它可能会让您想起流行的 LISP 的语法,例如 SchemeClojure

(TOP(VP(VB Shutdown)
(NP(DT all)
    (JJ active)
    (NNS devices))))

单词/列表左侧的标签是所谓的 POS (Part-of-Speech) 标签,代表单词所属的语法类别,本质上是单词类别消歧。词性标注仍然是自然语言处理中非常困难的研究领域之一,其 F1 分数高达 90%。您构建的树 sn-p(如下列表所示)如下所示:

(TOP(Verb, non-3rd-person(Verb Shutdown)
(Noun-Phrase (Determiner all)
    (Adjective active)
    (Noun-plural devices))))

POS 标记是用于语义解析或命名实体识别等任务的出色语言功能。一些值得学习的好资源包括:

  1. NLTK (Natural Language Toolkit) Book Chapter 5
  2. Foundations of Statistical Natural Language Processing
  3. Part of Speech Tagging and Partial Parsing

词性标签列表(Penn Treebank 语料库)

  1. CC ~ 并列连词
  2. CD ~ 基数
  3. DT ~ 限定符
  4. EX ~ 存在于那里
  5. FW ~ 外来词
  6. IN ~ 介词或从属连词
  7. JJ ~ 形容词
  8. JJR ~ 形容词,比较级
  9. JJS ~ 形容词,最高级
  10. LS ~ 列表项标记
  11. MD ~ 模态
  12. NN ~ 名词,单数或整体
  13. NNS ~ 名词,复数
  14. NNP ~ 专有名词,单数
  15. NNPS ~ 专有名词,复数
  16. PDT ~ 预定者
  17. POS ~ 所有格结尾
  18. PRP ~ 人称代词
  19. PRP$ ~ 所有格代词
  20. RB~副词
  21. RBR ~ 副词,比较级
  22. RBS ~ 副词,最高级
  23. RP ~ 粒子
  24. SYM ~ 符号
  25. ~到
  26. ~感叹词
  27. VB ~ 动词,基本形式
  28. VBD ~ 动词,过去式
  29. VBG ~ 动词、动名词或现在分词
  30. VBN ~ 动词,过去分词
  31. VBP ~ 动词,非第三人称单数现在时
  32. VBZ ~ 动词,第三人称单数现在时
  33. WDT ~ Wh-determiner
  34. WP ~ Wh-代词
  35. WP$ ~ 所有格 wh 代词
  36. WRB ~ Wh-副词

【讨论】:

  • 是的,当然。我会更新我的答案。您是否愿意阅读学术期刊,或者我应该避免这些?
  • 一切都好...我是一名软件开发人员...正在研究应该理解命令语句的东西,就像 SIRI 或 Cortana 所以需要一些快速参考和一些深入的知识。 ..:)
  • 更新了一些快速资源。在这种情况下,我建议您研究语义解析。
  • 不客气。如果有帮助,请考虑接受我的回答:-)
猜你喜欢
  • 1970-01-01
  • 2022-11-10
  • 1970-01-01
  • 2019-04-24
  • 2012-02-22
  • 2017-08-03
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多