【问题标题】:Apostrophes Converted to Correct Text?撇号转换为正确的文本?
【发布时间】:2011-06-08 02:39:02
【问题描述】:

目标:我需要能够将撇号转换为格式正确的单词。 - 至少对于带有撇号的最常见单词。理想情况下,我想要一个单词列表及其隐含的对等词(即“不要”和“不要”)。

问题:我正在创建基于自然语言处理的搜索算法,但是当用户使用撇号创建内容(或搜索)时,会给我们带来问题。主要是因为如果我们要简单地删除撇号,我们将拥有 (don't -> dont) (doesn't -> doesnt),它正式不是英文单词,并且不能被 NLP 系统翻译。

理想的解决方案只是将这些项目转换为的内容进行一对一映射,但我不知道这样的列表。

如果你知道一个,请告诉我,我可以在哪里找到它。

谢谢

【问题讨论】:

  • 出于好奇,为什么不直接将缩略词添加到 NLP 系统的字典中?

标签: algorithm text nlp text-parsing


【解决方案1】:

这些词被称为“收缩”,您可以在网上找到一个列表,例如http://en.wikipedia.org/wiki/Contraction_(grammar)

【讨论】:

  • 最后一个括号被忽略了。
【解决方案2】:

这看起来是一个不错的列表: http://www.textfixer.com/resources/english-contractions-list.php

取决于你想让你的系统有多好。它会理解“gonna”是“going to”和“gotta”是……嗯,这很难。它可能意味着“得到”(“必须”、“必须”)或“得到一个”(“有一个”)。

哦,当我们尝试教我们的计算机进行交流时,我们学到的东西。

【讨论】:

    猜你喜欢
    • 2014-08-19
    • 1970-01-01
    • 2015-05-15
    • 2011-10-06
    • 2023-03-11
    • 2013-04-03
    • 2011-10-11
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多