PTE(2015KDD)

贡献:

提出了一种高效的算法“PTE”,它通过将异构文本网络嵌入低维空间来学习文本的分布式表示。

问题定义

定义1。(word-word Network)

表示为Gw_ww_w=(V,Ew_ww_w),捕获未标记数据的本地上下文中的词共现信息。V是单词的词汇表,ew_ww_w是单词之间的一组边。单词vi_i和vj_j之间的边的权重,定义为两个单词在给定窗口大小的上下文窗口中同时出现的次数。

定义2。(Word-Document Network)

表示为Gw_wd_d=(V∪D,Ew_wd_d),是一个二分网络,其中D是一组文档,V是一组单词。ew_wd_d是单词和文档之间的一组边。单词vi_i和文档dj_j之间的权重wi_ij_j简单地定义为文档dj_j中vi_i出现的次数

定义3。(Word-Label Network)

示为Gwl=(V∪L,Ew_wl_l),是一个捕获类别级单词共现的二分网络。L是一组类标签,V是一组单词。ew_wl_l是单词和类之间的一组边。定义词vi_i与cj_j类之间的边的权重为:
PTE(2015KDD)
,其中nd_di_i是文档d中单词vi_i的词频,ld_di_i是d文档的类标签

定义4。(Heterogeneous Text Network)

三个图共同组成
PTE(2015KDD)

二部图网络嵌入

方法:LINE的二阶方法(参考上一篇博客)

异构文本网络嵌入

PTE(2015KDD)

文本嵌入

异构文本网络对词在不同层次上的共现进行编码,从未标记数据和标记信息中提取,用于特定的分类任务。因此,通过嵌入异构文本网络学习的单词表示不仅更健壮,而且更适合该任务。一旦学习了单词向量,就可以通过简单地平均该文本中单词的向量来获得任意文本的表示。
一段文本的向量表示d=w1w2···,wn可以计算为
PTE(2015KDD)

相关文章: