sharpICTCLAS 参考:http://www.cnblogs.com/zhenyulu/archive/2007/04/18/718383.html
Lucene.net 参考:http://incubator.apache.org/lucene.net/
原子分词效率:短句,sharpICTCLAS快;超过1M的数据,Lucene.net快。
Lucene的优势:英文句子处理的好。
sharpICTCLAS的优势:只关注中文。
测试代码:
Lucene.net
下一步考虑使用lucene的Token代替ICTCLAS的原子分词函数。