训练和测试的语料都是人民日报98年标注语料,训练和测试比例是10:1,直接通过CRF++标注词性的准确率:0.933882。特征有一千多万个,训练时间比较长。机器cpu是48核,通过crf++,指定并线数量 -p为40,训练了大概七个小时才结束。

语料库、生成训练数据的python脚本、训练日志、模型、计算准确率脚本都上传到网盘,可以直接下载:戳我下载 CRF++词性标注,程序在centos6.5+python2.7下面运行通过,如果在win下或者ubuntu下可能会有异常,通常都是编码、路径规范等小问题,通过逐行debug脚本应该很容易找到问题,同时要确定crf++在自己机器本身编译没有问题,下面说一下每一步的过程。

文章目录 [展开]

生成训练和测试数据

生成训练和测试数据脚本:get_post_train_test_data.py,执行过程中会打印出来一些调试信息。

 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
#coding=utf8
 
sys
 
 
 
:
:
)
:
)
 
:
:
)
:
)
 
    
)
)
)
 
)
0
:
1
)
continue
)
False
:
True
:
word
)
        
)
:
]
)
:
]
)
word
word_hand
#print w,h
#ren min
#print 'NR',w
:
)
:
)
continue
)
)
            
)
)
 
    
)

 

执行训练和测试

设置模板为:

 
1
2
3
4
5
6
7
8
Unigram
%x[-2,0]
%x[-1,0]
%x[0,0]
%x[1,0]
%x[2,0]
%x[-1,0]/%x[0,0]
%x[0,0]/%x[1,0]

训练的时候的-p参数根据自己机器情况设置

 
1
2
  
.rst

 

计算准确率

通过命令:python clc_f.py  test.rst 执行python脚本,clc_f.py中的具体程序:

 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
#!/usr/bin/python
# -*- coding: utf-8 -*-
 
sys
 
:
:
)
:
)
0
0
0
0
True
    
:
continue
    
)
    
:
False
1
 
:
1
True
    
 
wc
wc_of_correct
            
#准确率
)
    
)

 

实验结果

 

 

相关文章:

  • 2022-12-23
  • 2021-12-17
  • 2022-12-23
  • 2021-11-03
  • 2021-06-04
  • 2021-07-08
  • 2022-12-23
  • 2022-01-08
猜你喜欢
  • 2022-02-09
  • 2022-12-23
  • 2022-01-08
相关资源
相似解决方案