学习目标
   • 了解自然语言处理基本知识
   • 掌握循环神经网络算法
   • 掌握自然语言处理关键技术
   • 了解自然语言处理的应用

什么是文本向量化
   • 文本向量化:将文本表示成一系列能够表达文本语义的向量。常用的向量化算法有:
      • one-hot
      • TF-IDF
      • word2vec
         o CBOW模型
         o Skip-gram模型
      • doc2vec/str2vec
         o DM(Distributed Memory)
         o DBOW(Distributed Bag of Words)
   • 文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能。文本向量化是文本表示的一种重要方式。无论是中文还是英文,词语都是表达语义的基本单元
      AI-自然语言处理-文本向量化
            用四个维度(向量)表示这几个对象。
word2vec - CBOW模型
      AI-自然语言处理-文本向量化
            用中间词作为目标词,使用上下文去预测出现的概率
word2vec - Skip-gram模型
      AI-自然语言处理-文本向量化
            从目标单词预测上下文,计算句子、长文本的相似性:分词—关键词—向量化—平均、拼接—计算相似性
            会打乱文本间语序
doc2vec - DM模型
      AI-自然语言处理-文本向量化
            基于CBOW模型,区别是用段落向量句向量,而不是单词向量
doc2vec - DBOW模型
      AI-自然语言处理-文本向量化

相关文章: