【发布时间】:2015-05-15 17:47:58
【问题描述】:
我们有很多文本(大部分是用英文写的)被错误地导入(来自我们无法控制的来源)。例如
-
configuredincorrectly- 两个词configured&incorrectly -
RegardsJohn Doe- 变成一个词Regards和一个命名实体John Doe -
To: person1@example.comCC:addr2@example.co.ukBCC:person3@example.sg- 分成 3 个元组(To,person1@example.com),(CC,addr2@example.co.uk),(BCC,person3@example.sg) -
problem.Possible- 两个词problem&possible
我承认我们正在尝试解决这里的多个问题。编写不可扩展的代码很诱人,例如
- 正则表达式每次我们尝试解决特定的脏文本场景,
- string.replace(keyword,keywordwithSpace)
谁能指出问题 1 和 2 的(部分)解决方案?
利用自然语言理解的解决方案将是最理想的。
我们的词汇表中有大约 1000 个单词,例如 [通信、数据库、硬件、网络、问题、纠正、解决方案等]。有没有办法我们可以“训练”一个模型来识别像 hardwarefailure 这样的词实际上意味着 2 个单独的词 hardware 和 failure。
提前非常感谢!
【问题讨论】:
-
你不能在这里使用正则表达式..
标签: regex python-2.7 nlp text-mining