【发布时间】:2017-07-30 03:23:09
【问题描述】:
我目前正在开发一种工具,旨在检测文本中的地址(或任何模式,如工作、运动队或任何东西)。
所以我现在在做什么:
1/ 将文本拆分为单词 2/ 词干化
用户可以创建类别(工作、运动队、地址...)并将手动分配一个句子到一个类别。
这句话的每个词干都将存储在数据库中,并带有更新的分数 (+1)
当我浏览一个新文档时,我会为每个句子计算其中所有单词的得分。
例子:
我住在伦敦的布朗街
=> (live+1, Brown +1, Street+1, London+1)
那下次见
我住在伦敦的奥兰治街 得分为 3(live +1,Street+1,London+1)所以我可以说“这句话可能是一个地址”。如果用户验证,我会更新单词(live+1、orange+1、street+1、london+1)。 如果他说“不准确”,所有的话都会被否决。
我认为通过更多的运行,我将能够检测地址,因为“Street”和“London”的得分会很高(邮政编码等相同)
我的问题是:
首先,您如何看待这种方法? 其次,这种方法只是忽略了上下文。带有 Street & London 的句子应该有更好的分数。 这意味着如果我在同一个句子中检测到 Street & London,我们很可能会说它是一个地址。
如何将这些信息存储在数据库中?我目前正在使用关系数据库(MySQL),但如果我存储每个单词之间的链接,恐怕会变得很大。
这就是我们所说的神经网络吗?最好的存储方法是什么?
你有什么建议可以升级我的检测算法吗?
【问题讨论】:
标签: algorithm machine-learning neural-network