【问题标题】:Find specific patteren of string in text在文本中查找特定的字符串模式
【发布时间】:2012-06-22 02:50:24
【问题描述】:

我正在寻找一种在文本中查找特定模式的方法。例如,如果我想从如下格式的文本中查找所有引用:

  • Baron, Naomi (2000) 字母到电子邮件:书面英语是如何演变的及其发展方向,劳特利奇:伦敦和纽约。

所以任何与此类似的内容都会从输入文本中返回。有什么算法可以很好地解决这个问题。到目前为止,我发现的只是在文本中搜索相似字符串的算法。

我正在考虑使用正则表达式,但我不知道这是否是最好的方法,因为我需要一些东西来计算一些相似性指数,然后返回得分最高的命中。

【问题讨论】:

  • 什么语言?听起来你需要Sphinx
  • 更好地描述你在寻找什么——试着用更多的例子来描述grammer。一旦你这样做了 - 正则表达式是否足够,或者你可能需要一个 context-free 解析器(其中:LR? SLR? 可能是 LL?)
  • 解析这些字符串是计算相似度是两个不同的任务。

标签: string algorithm pattern-matching text-mining string-search


【解决方案1】:

您正在寻找的技术称为信息提取。

这是我对类似问题的回答:

How does Apple find dates, times and addresses in emails?

您可能还需要结合一些命名实体识别。 http://en.wikipedia.org/wiki/Named-entity_recognition

【讨论】:

    猜你喜欢
    • 2022-01-17
    • 2023-02-04
    • 1970-01-01
    • 2017-10-03
    • 2013-11-14
    • 1970-01-01
    • 1970-01-01
    • 2020-06-29
    • 2023-03-25
    相关资源
    最近更新 更多