笔者现在有一批DWPI的专利数据,内含每一项专利的标题和摘要,时间跨度从2010-2020年,共计17万条。现操作要求是对每一项专利的标题进行关键技术术语抽取。如
此任务为探索性任务,笔者希望能用此博客记录下探索过程中的思考和成效。
探索一,将此任务转化为了术语标注问题,即自动对术语进行BIO的标注,然后再对标注好的短语做抽取。在此任务框架下,笔者想要先试试已经训练好的几个模型,直接得到标注好的结果;几个模型的实验结果做一下bagging后,再加上人工修正,作为训练集,再以此数据为训练集,训练bert+crf模型,对剩下的数据做实验;
选取的模型集合为{stanfordcorenlp,foolNLTK,bilstm+crf,bert+crf},前两个模型的实验效果非常不好,究其原因是前两个工具针对的是人名、地名、机构名的识别,对技术短语的敏感度很低;后两个模型尚未找到可以直接使用的训练好的模型(尚待探索),这里,如果能找到同样是以技术类文本做训练集的训练好的模型,便非常有利于后续做迁移学习。
探索二,将此任务定义为关键短语抽取问题。经调查发现,目前无监督关键短语抽取算法和关键词抽取算法差不多:主要是选取TF-IDF,Textrank 等特征为候选短语的打分,然后抽取得分高的候选短语。
值得一提的是,本文通过对语料探索发现,技术术语抽取一般是具有定中关系的相邻词组。所以,笔者希望在关键短语抽取问题中能够融入依存句法分析,即在候选短语中抽取具有定中关系的短语作为最后的结果。
目前的实施方案是:
1)关键短语抽取使用:ckpe 这个工具库,作者引入了LDA主题模型去优化关键短语打分,效果不错。但是这个工具库针对的是中文,笔者下一步的任务是将其改成针对英文的工具;
2)依存句法分析:选择的是hanlp工具库。
此两步的目的是为了构建2万条训练数据集,然后后续会融合BERT+依存句法 为模型,对剩下数据做模型应用。