【问题标题】:Machine learning for natural language processing - Custom translation用于自然语言处理的机器学习 - 自定义翻译
【发布时间】:2017-03-22 09:14:47
【问题描述】:

假设我有以下非常简化的训练和测试观察结果。

培训

input: her favourite dog was a huskey and her favourite cat was a leopard
output: dog=huskey, cat=leopard

input: her favourite dog was a beagle and her favourite cat was a lion
output: dog=beagle, cat=lion

input: her favourite dog was a poodle and her favourite cat was a burmese
output: dog=poodle, cat=burmese

测试

input: her favourite dog was a collie and her favourite cat was a moggie
desired output: dog=collie, cat=moggie
  • python 中最好的机器学习方法是什么,可以让我将测试输入转换为所需的输出?
  • 从获取原始数据到做出预测所涉及的步骤是什么?

根据该领域的一些研究,似乎很多现有的机器学习包都围绕分类、回归和聚类(例如http://scikit-learn.org/stable/),而我正在尝试做的是一种翻译形式。

我还研究了一些 NLP 包,其功能更多地属于关键字识别、词型识别和情感分析(例如 http://www.nltk.org/)。还有一些翻译包可用,但这些是针对预先存在的语言 (http://pythonhosted.org/goslate/)

我认识到,对于这种特殊情况,机器学习完全没有必要,但在实践中,需要翻译的输入要复杂得多、不同的多。

【问题讨论】:

    标签: python machine-learning nlp artificial-intelligence data-science


    【解决方案1】:

    (1) 我将重新表述您要解决的问题:在 句子 S 中给定一些特定的动物 A,找到最好的动物 C 类。所以给定句子1:

    她最喜欢的狗是哈士奇,她最喜欢的猫是豹子

    给定目标动物 A = "huskey",你会得到 C = "dog" 作为类;同样,当 A = "leopard" 你会得到 C = "cat"。

    (2) 从您提出问题的方式来看,我假设您不想使用外部字典或其他数据(在其中找到 C 类与其相关动物物种的搭配相对简单,并且训练一个有监督的分类器)。所以我假设你仅限于你提到的数据类型。我还将假设每个句子中都明确提到了 C 类。

    (3) 鉴于数据限制,您似乎需要在特征中使用句法信息。在英语中,语法主要是通过词序来传达的,所以我会专注于这些。将词性标记器应用于您的数据可能很有用。

    (4) 对于句子 S 中的每个可能的目标 A,您将创建一行数据。因此,句子 #1 有两个目标 A={husky, leopard},因此您的训练数据中有两行将映射到各自的类,狗和猫。

    行已发送。目标 F1, F2, ... FN 类

    1 1 哈士奇...狗

    2 1 豹...猫

    (5) 包含目标的 POS 作为特征...在您提供的示例数据中可能没有用,但对更复杂的目标有用,例如,A = "the big white husky" 应该映射完整的名词C =“狗”的短语。鉴于您上面的数据,简单的解决方案只会找到目标左侧最近的名词。

    her.d favorite.a dog.n is.v a husky.n and her.d favorite.a cat.n is.v a leopard.n

    所以你可以有一个特征 F_LftClosestNoun、F_RtClosestNoun、F_ClosestNoun。然后只需在训练数据上训练你的分类器并在看不见的数据上进行测试。如果您提供更逼真的样本,我们或许可以识别出其他有用的功能。

    【讨论】:

      猜你喜欢
      • 2015-08-13
      • 1970-01-01
      • 2011-01-15
      • 2015-10-29
      • 1970-01-01
      • 2013-09-04
      • 1970-01-01
      • 1970-01-01
      • 2012-01-09
      相关资源
      最近更新 更多