转：CRF++词性标注

2016-02-28 分类：NLP 阅读(5558) 评论(19)

训练和测试的语料都是人民日报98年标注语料，训练和测试比例是10：1，直接通过CRF++标注词性的准确率:0.933882。特征有一千多万个，训练时间比较长。机器cpu是48核，通过crf++，指定并线数量 -p为40，训练了大概七个小时才结束。

语料库、生成训练数据的python脚本、训练日志、模型、计算准确率脚本都上传到网盘，可以直接下载：戳我下载 CRF++词性标注，程序在centos6.5+python2.7下面运行通过，如果在win下或者ubuntu下可能会有异常，通常都是编码、路径规范等小问题，通过逐行debug脚本应该很容易找到问题，同时要确定crf++在自己机器本身编译没有问题，下面说一下每一步的过程。

文章目录 [展开]

生成训练和测试数据

生成训练和测试数据脚本：get_post_train_test_data.py，执行过程中会打印出来一些调试信息。

#coding=utf8

sys

)

continue

)

False

True

word

)

]

)

]

)

word

word_hand

#print w,h

#ren min

#print 'NR',w

)

continue

)

执行训练和测试

设置模板为：

Unigram

%x[-2,0]

%x[-1,0]

%x[0,0]

%x[1,0]

%x[2,0]

%x[-1,0]/%x[0,0]

%x[0,0]/%x[1,0]

训练的时候的-p参数根据自己机器情况设置

.rst

计算准确率

通过命令：python clc_f.py test.rst 执行python脚本，clc_f.py中的具体程序：

#!/usr/bin/python

# -*- coding: utf-8 -*-

sys

)

True

continue

)

False

True

wc_of_correct

#准确率

)

生成训练和测试数据

执行训练和测试

计算准确率

实验结果