【发布时间】:2011-06-08 02:39:02
【问题描述】:
目标:我需要能够将撇号转换为格式正确的单词。 - 至少对于带有撇号的最常见单词。理想情况下,我想要一个单词列表及其隐含的对等词(即“不要”和“不要”)。
问题:我正在创建基于自然语言处理的搜索算法,但是当用户使用撇号创建内容(或搜索)时,会给我们带来问题。主要是因为如果我们要简单地删除撇号,我们将拥有 (don't -> dont) (doesn't -> doesnt),它正式不是英文单词,并且不能被 NLP 系统翻译。
理想的解决方案只是将这些项目转换为的内容进行一对一映射,但我不知道这样的列表。
如果你知道一个,请告诉我,我可以在哪里找到它。
谢谢
【问题讨论】:
-
出于好奇,为什么不直接将缩略词添加到 NLP 系统的字典中?
标签: algorithm text nlp text-parsing