关于分词得研究由来已久,最近看到博客园里类似文章不断,于是想说说自己的看法。

    对于分词算法,首先我觉得是一个数学和文学的问题而非编程技术的问题,肯到很多同学不厌其烦的孜孜不倦的追求最完美的分词程序,其实我看大可不必,当然对于编程技术的完美追求是好的,不过应该是力气用错了地方。
    最先看到的是《面向搜索的中文分词设计 一文所发布的程序,个人认为精神可嘉,但行为不可取,因为从根本上的算法就不够先进,所以程序出来也不会很出色,如果大家想研究算法的话,还是先搞好算法本身,再去用程序证明会比较好一点。

   PS一下,说说自己对分词算法的一点看法,分次算法首先要对中文的文法有深入的研究才能提出最优化的算法,呵呵,所以想搞中文分词的话最好学好语文先:}。根据自己学习母语二十多年来的一点浅薄经验来看,中文整句的分词识别找到谓语是最重要的,因为谓语是构成文法的谓词结构主要组成部分,谓语一确定,主语宾语的词分出来就好识别的。

不是自己的主攻方向,不过说点自己的见解,如果有不同意见欢迎讨论

相关文章: