【发布时间】:2014-12-11 10:49:23
【问题描述】:
我正在努力将一些文本分类为最适合该文本的类别。作为第一步,我正在编写一个简单的文本匹配代码。 我正在将文本集中的一段文本中的单词与指示某些类别的单词进行比较。
这个简单搜索的复杂度变得太大了 O(n^4)!
文本:许多好莱坞电影都很棒。电影爱好者沉迷于它们。 (n个词在1个句子和m个这样的句子)
类别可以是:电影、歌曲、体育等(p 个类别,每个类别有 x 个单词)
电影的指示词-[电影,电影,电影...](一个类别的 x 词)
所以,搜索时间变成了 O (m *n * p * x) 这可能太大了。
你能建议我一些数据结构/方法来解决简化复杂性吗?
【问题讨论】:
标签: performance algorithm nlp time-complexity categorization