【发布时间】:2012-10-05 22:54:03
【问题描述】:
我想查找在文本文件中引用的名称。作者可以有任意数量的姓名和头衔。仅当所有名称都匹配时才找到匹配项(例如,名为“John Doe”的人在仅包含“John”的文本中不匹配
我现在解决的方法是将名称拆分为标记并将第一个标记存储在 HashSet 中,以小写字符串作为键。每个令牌都包含一组名称中的下一个令牌,依此类推。
这会导致大量增加开销的 HashSet 对象。我认为有更好的方法来处理这个问题?如果可能的话,我更喜欢图书馆,但任何事情都会有所帮助
如果那里有好的解决方案,我愿意切换到 Python。
【问题讨论】:
-
你有一个小的示例文本文件给我们看看吗?
-
不是我现在的位置。但想想亚马逊。我实际上将使用类似的来源作为查找值(作者)。要匹配的数据材料是书评等,其中包含很多我不感兴趣的文本。
-
澄清一下,您的意思是您想要一个数据结构来有效地存储 John Smith 先生、John Doe 先生、John Smith 博士、John Doe 博士等吗?
-
@DNA:是的。这将是内存中的数据结构。我将从文件中读取大量文本并对其进行匹配。目前我在 HashSets 中有一个邪恶的 HashSets 组合,但一定有人做得更好
标签: java python string-matching information-retrieval