Few-Shot Learning with Graph Neural Networks 笔记

Few-Shot Learning with Graph Neural Networks笔记

第一步

输入

T={{(x1,l1),(xs,ls)},{x~1,,x~r},{x1,,xt};li{1,K},xi,x~j,xjPl(RN)} \mathcal{T}=\left\{\left\{\left(x_{1}, l_{1}\right), \ldots\left(x_{s}, l_{s}\right)\right\},\left\{\tilde{x}_{1}, \ldots, \tilde{x}_{r}\right\},\left\{\overline{x}_{1}, \ldots, \overline{x}_{t}\right\} ; l_{i} \in\{1, K\}, x_{i}, \tilde{x}_{j}, \overline{x}_{j} \sim \mathcal{P}_{l}\left(\mathbb{R}^{N}\right)\right\}

其中s为有标签的样本数量,r为无标签的样本数量,t为待分类的样本数量,其中所有x独立同分布。

提取

将输入 $\mathcal{T} $ 转换为全连接图GT=(V,E)G_{\mathcal{T}}=(V, E) ,其中vaVv_{a} \in V 代表图片xx (包括有标签和无标签的)。

初始化点特征

GG​ 的初始值通过下式得到
xi(0)=(ϕ(xi),h(li)) \mathbf{x}_{i}^{(0)}=\left(\phi\left(x_{i}\right), h\left(l_{i}\right)\right)
其中ϕ(xi)\phi\left(x_{i}\right) 是一个CNN,h(li)h(l_{i}) 是独热码。

GNN

Few-Shot Learning with Graph Neural Networks笔记

边特征

A~i,j(k)=φθ~(xi(k),xj(k))=MLPθ~(abs(xi(k)xj(k))) \tilde{A}_{i, j}^{(k)}=\varphi_{\tilde{\theta}}\left(\mathbf{x}_{i}^{(k)}, \mathbf{x}_{j}^{(k)}\right)=\operatorname{MLP}_{\tilde{\theta}}\left(a b s\left(\mathbf{x}_{i}^{(k)}-\mathbf{x}_{j}^{(k)}\right)\right)
MLP是多层感知机

图卷积

在其最简单的模型中,给定赋权图GG的顶点上的输入信号FRV×dF \in R^{V\times d} ,我们考虑图形本征线性算子的族A\mathcal{A},其在该信号上局部地起作用。 最简单的是邻接算子A:FA(F)A : F \mapsto A(F)其中(AF)i:=jiwi,jFj(A F)_{i} :=\sum_{j \sim i} w_{i, j} F_{j},其中(i,j)E(i, j) \in Ewi,j\quad w_{i, j} 为其相关权重。 GNN层Gc(·)接收信号x(k)RV×dk\mathbf{x}^{(k)} \in \mathbb{R}^{V \times d_{k}}作为输入,并产生x(k+1)RV×dk+1x^{(k+1)} \in \mathbb{R}^{V \times d_{k+1}}
xl(k+1)=Gc(x(k))=ρ(BABx(k)θB,l(k)),l=d1dk+1 \mathbf{x}_{l}^{(k+1)}=\operatorname{Gc}\left(\mathbf{x}^{(k)}\right)=\rho\left(\sum_{B \in \mathcal{A}} B \mathbf{x}^{(k)} \theta_{B, l}^{(k)}\right), l=d_{1} \ldots d_{k+1}
其中Θ={θ1(k),,θA(k)}k\Theta=\left\{\theta_{1}^{(k)}, \dots, \theta_{|\mathcal{A}|}^{(k)}\right\}_{k}θA(k)Rdk×dk+1\theta_{A}^{(k)} \in \mathbb{R}^{d_{k} \times d_{k+1}} 为参数, ρ()\rho(\cdot)是非线性函数,论文中选择Leaky ReLUs

损失函数

min1LiL(Φ(Ti;Θ),Yi)+R(Θ)(Φ(T;Θ),Y)=kyklogP(Yi=ykT) \begin{array}{l}{\min \frac{1}{L} \sum_{i \leq L} \ell\left(\Phi\left(\mathcal{T}_{i} ; \Theta\right), Y_{i}\right)+\mathcal{R}(\Theta)} \\ {\ell(\Phi(\mathcal{T} ; \Theta), Y)=-\sum_{k} y_{k} \log P\left(Y_{i}=y_{k} | \mathcal{T}\right)}\end{array}

其中 Φ(T;Θ)=p(YT)\Phi(\mathcal{T} ; \Theta)=p(Y | \mathcal{T}),通过极大似然估计得出预测标签。

相关文章: