训练和测试的语料都是人民日报98年标注语料,训练和测试比例是10:1,直接通过CRF++标注词性的准确率:0.933882。特征有一千多万个,训练时间比较长。机器cpu是48核,通过crf++,指定并线数量 -p为40,训练了大概七个小时才结束。
语料库、生成训练数据的python脚本、训练日志、模型、计算准确率脚本都上传到网盘,可以直接下载:戳我下载 CRF++词性标注,程序在centos6.5+python2.7下面运行通过,如果在win下或者ubuntu下可能会有异常,通常都是编码、路径规范等小问题,通过逐行debug脚本应该很容易找到问题,同时要确定crf++在自己机器本身编译没有问题,下面说一下每一步的过程。
文章目录 [展开]
生成训练和测试数据
生成训练和测试数据脚本:get_post_train_test_data.py,执行过程中会打印出来一些调试信息。
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
|
#coding=utf8
sys
:
:
)
:
)
:
:
)
:
)
)
)
)
)
0
:
1
)
continue
)
False
:
True
:
word
)
)
:
]
)
:
]
)
word
word_hand
#print w,h
#ren min
#print 'NR',w
:
)
:
)
continue
)
)
)
)
)
|
执行训练和测试
设置模板为:
|
1
2
3
4
5
6
7
8
|
Unigram
%x[-2,0]
%x[-1,0]
%x[0,0]
%x[1,0]
%x[2,0]
%x[-1,0]/%x[0,0]
%x[0,0]/%x[1,0]
|
训练的时候的-p参数根据自己机器情况设置
|
1
2
|
.rst
|
计算准确率
通过命令:python clc_f.py test.rst 执行python脚本,clc_f.py中的具体程序:
|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
|
#!/usr/bin/python
# -*- coding: utf-8 -*-
sys
:
:
)
:
)
0
0
0
0
True
:
continue
)
:
False
1
:
1
True
wc
wc_of_correct
#准确率
)
)
|
实验结果