【发布时间】:2012-06-22 02:50:24
【问题描述】:
我正在寻找一种在文本中查找特定模式的方法。例如,如果我想从如下格式的文本中查找所有引用:
- Baron, Naomi (2000) 字母到电子邮件:书面英语是如何演变的及其发展方向,劳特利奇:伦敦和纽约。
所以任何与此类似的内容都会从输入文本中返回。有什么算法可以很好地解决这个问题。到目前为止,我发现的只是在文本中搜索相似字符串的算法。
我正在考虑使用正则表达式,但我不知道这是否是最好的方法,因为我需要一些东西来计算一些相似性指数,然后返回得分最高的命中。
【问题讨论】:
-
什么语言?听起来你需要Sphinx
-
更好地描述你在寻找什么——试着用更多的例子来描述grammer。一旦你这样做了 - 正则表达式是否足够,或者你可能需要一个 context-free 解析器(其中:LR? SLR? 可能是 LL?)
-
解析这些字符串是计算相似度是两个不同的任务。
标签: string algorithm pattern-matching text-mining string-search