无监督数据场景下信息抽取问题

笔者现在有一批DWPI的专利数据，内含每一项专利的标题和摘要，时间跨度从2010-2020年，共计17万条。现操作要求是对每一项专利的标题进行关键技术术语抽取。如
无监督数据场景下信息抽取问题
此任务为探索性任务，笔者希望能用此博客记录下探索过程中的思考和成效。

探索一，将此任务转化为了术语标注问题，即自动对术语进行BIO的标注，然后再对标注好的短语做抽取。在此任务框架下，笔者想要先试试已经训练好的几个模型，直接得到标注好的结果；几个模型的实验结果做一下bagging后，再加上人工修正，作为训练集，再以此数据为训练集，训练bert+crf模型，对剩下的数据做实验；
选取的模型集合为{stanfordcorenlp，foolNLTK,bilstm+crf，bert+crf}，前两个模型的实验效果非常不好，究其原因是前两个工具针对的是人名、地名、机构名的识别，对技术短语的敏感度很低；后两个模型尚未找到可以直接使用的训练好的模型（尚待探索），这里，如果能找到同样是以技术类文本做训练集的训练好的模型，便非常有利于后续做迁移学习。

探索二，将此任务定义为关键短语抽取问题。经调查发现，目前无监督关键短语抽取算法和关键词抽取算法差不多：主要是选取TF-IDF，Textrank 等特征为候选短语的打分，然后抽取得分高的候选短语。
值得一提的是，本文通过对语料探索发现，技术术语抽取一般是具有定中关系的相邻词组。所以，笔者希望在关键短语抽取问题中能够融入依存句法分析，即在候选短语中抽取具有定中关系的短语作为最后的结果。

目前的实施方案是：
1）关键短语抽取使用：ckpe 这个工具库，作者引入了LDA主题模型去优化关键短语打分，效果不错。但是这个工具库针对的是中文，笔者下一步的任务是将其改成针对英文的工具；
2）依存句法分析:选择的是hanlp工具库。
此两步的目的是为了构建2万条训练数据集，然后后续会融合BERT+依存句法为模型，对剩下数据做模型应用。