【发布时间】:2010-11-05 03:51:17
【问题描述】:
我想用 n-gram 实现一些应用程序(最好用 PHP)。
哪种类型的 n-gram 更适合大多数用途?单词级别还是字符级别 n-gram?如何在 PHP 中实现 n-gram-tokenizer?
首先,我想知道 N-gram 到底是什么。它是否正确?这就是我对 n-gram 的理解:
句子:“我住在纽约。”
字级二元组(n 为 2):“# I”、“I live”、“live in”、“in NY”、“NY #”
字符级二元组(n 为 2):“#I”、“I#”、“#l”、“li”、“iv”、“ve”、“e#”、“#i”、“in "、"n#"、"#N"、"NY"、"Y#"
当你有这个 n-gram-parts 数组时,你删除重复的,并为每个部分添加一个计数器,给出频率:
词级二元组:[1, 1, 1, 1, 1]
字符级二元组:[2, 1, 1, ...]
这对吗?
此外,我想进一步了解您可以使用 n-gram 做什么:
- 如何使用 n-gram 识别文本的语言?
- 即使您没有双语语料库,是否可以使用 n-gram 进行机器翻译?
- 如何构建垃圾邮件过滤器(垃圾邮件、垃圾邮件)?将 n-gram 与贝叶斯过滤器相结合?
- 如何进行主题定位?例如:关于篮球或狗的文字?我的方法(对“狗”和“篮球”的维基百科文章执行以下操作):为两个文档构建 n-gram 向量,对其进行归一化,计算曼哈顿/欧几里得距离,结果越接近 1 越高相似度
您如何看待我的应用方法,尤其是最后一种?
我希望你能帮助我。提前致谢!
【问题讨论】: