【问题标题】:What are trained models in NLP?NLP 中的训练模型是什么?
【发布时间】:2016-12-30 23:13:53
【问题描述】:

我是自然语言处理的新手。谁能告诉我 OpenNLP 或斯坦福 CoreNLP 中的训练模型是什么?在使用 apache openNLP 包在 java 中编码时,我们总是必须包含一些经过训练的模型(在此处找到 http://opennlp.sourceforge.net/models-1.5/)。它们是什么?

【问题讨论】:

    标签: java nlp stanford-nlp opennlp


    【解决方案1】:

    “模型”as downloadable for OpenNLPa set of data representing a set of probability distributions,用于根据您提供的输入(对于 OpenNLP,通常是文本文件)预测您想要的结构(例如 part-of-speech 标签)。

    鉴于自然语言是context-sensitive,此模型用于代替基于规则的系统,因为它通常比后者更适用于 a number of reasons,我不会详细说明为了简洁起见。例如,you already mentioned,标记 perfect 可以是动词 (VB) 或形容词 (JJ),这只能在上下文中消除歧义:

    • 这个答案是完美的——对于这个例子,下面的 POS 标签序列是可能的(除了更多):
      1. DT NN VBZ JJ
      2. DT NN VBZ VB

    但是,根据准确表示(“正确”)英语的模型§,示例 1 的概率大于示例 2:P([DT, NN, VBZ, JJ] | ["This", "answer", "is", "perfect"]) > P([DT, NN, VBZ, VB] | ["This", "answer", "is", "perfect"])


    实际上,这是有争议的,但我在这里强调的是,我是在谈论整个自然语言(包括语义/语用学/等),而不仅仅是自然语言语法,其中(至少在英语的情况下)is considered by some to be context-free

    当以数据驱动的方式分析语言时,事实上任何 POS标签的组合都是“可能的”,但是,给定一个“正确”的当代样本噪音很小的英语,母语人士会判断为“错误”的标签分配应该具有极低的发生概率。

    §在实践中,这意味着使用适当的调整参数(如果我想更准确地说,这个脚注很容易有多个段落)。

    【讨论】:

    • 你能解释一下它是如何用于预测你想要的结构的一组概率分布吗?你的意思是如果我在一个句子中输入例如“完美”这个词,完美可以是 adj还是动词,所以模型会根据句子分析的最高概率来决定形容词或动词,对吗?
    • 我添加了一个明确的例子;这有帮助吗?
    • 是的,现在我更清楚了,但是还有另一个问题是标记的准确性,Stanford coreNLP 和 OpenNLP 无法将单词 perfect 识别为动词"To perfect" 之类的情况,而 this online NLTK tagger 做得对,那么在斯坦福 coreNLP 标记器中处理此类情况有什么可做的吗?
    • 你问的可能非常复杂,因此它本身就是一个问题,超出了这个问题的范围:Stanford 和 OpenNLP 带有通常非常好的预训练模型,所以很可能是由于与许多其他因素中的一项或多项有关,因此我需要比您提供的信息更多的信息。
    • 好的,对于这个例子 “她努力工作以完善她的写作。” 我得到了这些 POS 标签“She_PRP works_VBZ hard_JJ to_TO perfect_JJ her_PRP$ writing_NN ._。” ,有两个错误的标签,“hard”必须是副词,“perfect”必须是动词,我不知道出了什么问题,可能是模型没有训练过在这种情况下将“完美”识别为动词,所以我该怎么办?
    【解决方案2】:

    将经过训练的模型视为“具有现有信息的聪明大脑”。

    当您开始机器学习时,模型的大脑是干净而空洞的。您可以下载经过训练的模型,也可以训练自己的模型(例如教孩子)

    通常您只为边缘情况训练模型,否则您下载“训练模型”并开始进行预测/机器学习。

    【讨论】:

      猜你喜欢
      • 2013-05-05
      • 2018-02-13
      • 1970-01-01
      • 2015-05-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-10-08
      • 1970-01-01
      相关资源
      最近更新 更多