知识点:
on-hot skip_gram CBOW n_gram 马尔科夫模型 分类、逻辑回归模型 CRF条件随机场模型 朴素贝叶斯
LSTM 双向LSTM GRU RNN CNN text_CNN DNN(前向传播) BP(DNN反向传播)对应损失函数、**函数学习
卷基层,池化层,全连接层
学习完整机器学习项目历程
https://blog.csdn.net/u010960155/article/details/81335067
http://www.tensorflownews.com/2018/04/12/text-cnn/
https://blog.csdn.net/fendouaini/article/details/80489348
https://www.cnblogs.com/pinard/p/6418668.html
https://www.julyedu.com/question/index/type/1
中文文本推断项目,包括88万文本蕴含中文文本蕴含数据集的翻译与构建,基于深度学习的文本蕴含判定模型构建.
文本间的推理关系,又称为文本蕴含关系 (TextualEntailment),作为一种基本的文本间语义联系,广泛存在于自然语言文本中。简单的来说文本蕴含关系描述的是两个文本之间的推理关系,其中一个文本作为前提(premise),另一个文本作为假设(hypothesis),如果根据前提P能够推理得出假设H,那么就说P蕴含H,记做P->H,这跟一阶逻辑中的蕴含关系是类似的。
目前关于文本蕴含还存在两个问题:
一,中文文本蕴含数据集严重匮乏
目前,关于文本蕴含的研究主要还是集中在英文,如评测中常常使用的SNLI数据集与MultiNIL:
1) The Stanford Natural Language Inference (SNLI) 是斯坦福大学NLP组发布的文本蕴含识别 的数据集。SNLI由人工标注的,一共包含570K个文本对,其中训练集550K,验证集10K,测 试集10K,一共包含三类entailment,contradiction,neutra,上节提到的例子就是出自此数据 集
2) The Multi-Genre Natural Language Inference (MultiNLI)是一个众包数据集,包含433k个文 本对。
然而,在中文中,还没有出现大规模的文本蕴含数据集, CCL2018有一个文本蕴含的评测,由北京语言大学于东老师团队组织的,发布了一个数量级为10W的评测集,这是目前最大的一个文本蕴含数据集,与英文还有很大的差距。
二,语言之间存在根本性差异
在英文SNIL数据集中,准确率已经达到将近90%,这个准确率是在50W+数据集上得到的,而中文与英文有实质性差异,英文的文本蕴含模型无法直接应用到中文的文本蕴含当中,我们需要在中文上做技术上的PK,做本土化的创新。
因此,本项目将尝试完成两个任务:
一, 完成与SNIL规模相当的中文文本蕴含数据集
二, 基于构建起的中文文本蕴含数据集, 尝试完成模型实验
本实验采用两个双向LSTM对前提Premise和假设hypothsis进行编码,最终将两个句子表征进行拼接,送入全连接层进行三分类 。
架构:
总结:
1, 本项目针对中文文本蕴含数据集数量不足的问题,提出了一个中文文本蕴含数据集,规模达到88W
2, 借助翻译方法进行英文中文转换,前提是英文句子较为短小,短句的翻译效果还是不错的
3, 原先打算使用百度API进行翻译,但是使用次数有限制,因此转而以金山毒霸代之,使用在线翻译结果
4, 本项目实现了一个以LSTM进行文本蕴含三分类的模型,准确率不是很高,只有0.54左右,后期还有很大的优化空间