【学习周报】
总结自己的学习和遇到的好材料。
往期回顾:
CS224N
这周学到第五章,感觉还是有些收获的,会感觉后续可以出一篇文章谈谈里面的细节问题。
NER
Ner(命名实体识别)这块,自己最近已经逐步结项了,总结了一些经验,后续也会有文章输出,这里给大家一些初步的经验吧。
规则是最快最好的,绝对的高准确。(这里的规则多半是词典标注,最大逆向匹配那种,对词典要求高)
模型的话,标注质量很大程度上决定了预测质量。(质量好的话,规则其实就能上线了,参考第一条)
模型的话,CRF需要的数据量大概在300w左右比较好(短句)。
名词类比较多的,难度真的不小,真的推荐大家先走词典。(福建是省,厦门是城市,这种模型来处理难度真的不低)
先聊这么多,这个看看有没有成文的条件吧。