贡献:
提出了一种高效的算法“PTE”,它通过将异构文本网络嵌入低维空间来学习文本的分布式表示。
问题定义
定义1。(word-word Network)
表示为G=(V,E),捕获未标记数据的本地上下文中的词共现信息。V是单词的词汇表,e是单词之间的一组边。单词v和v之间的边的权重,定义为两个单词在给定窗口大小的上下文窗口中同时出现的次数。
定义2。(Word-Document Network)
表示为G=(V∪D,E),是一个二分网络,其中D是一组文档,V是一组单词。e是单词和文档之间的一组边。单词v和文档d之间的权重w简单地定义为文档d中v出现的次数
定义3。(Word-Label Network)
示为Gwl=(V∪L,E),是一个捕获类别级单词共现的二分网络。L是一组类标签,V是一组单词。e是单词和类之间的一组边。定义词v与c类之间的边的权重为:
,其中n是文档d中单词v的词频,l是d文档的类标签
定义4。(Heterogeneous Text Network)
三个图共同组成
二部图网络嵌入
方法:LINE的二阶方法(参考上一篇博客)
异构文本网络嵌入
文本嵌入
异构文本网络对词在不同层次上的共现进行编码,从未标记数据和标记信息中提取,用于特定的分类任务。因此,通过嵌入异构文本网络学习的单词表示不仅更健壮,而且更适合该任务。一旦学习了单词向量,就可以通过简单地平均该文本中单词的向量来获得任意文本的表示。
一段文本的向量表示d=w1w2···,wn可以计算为