相关链接:http://groups.google.com/group/ictclas
吕震宇的博客:http://www.cnblogs.com/zhenyulu
DanceFire的专栏:http://blog.csdn.net/DanceFire/archive/2007/04/17/1567881.aspx
个人随想:
(1)摒弃CCID的字符id模式,采用Unicode的codepage。尽量利用C#的比较函数
(2)Segment(Stream),从Stream中截取句子。句子一般以“,。、;:”等标点符号为分隔符。