Finding “It”: Weakly-Supervised Reference-Aware Visual Grounding in Instructional Videos

这是CVPR2018 Oral的一片关于Weakly-Supervised Video Grounding的文章，paper连接http://ai.stanford.edu/~dahuang/papers/cvpr18-ramil.pdf，作者的homepage http://ai.stanford.edu/~dahuang/，code暂时没有被released出来。
文章要做的事情：
输入：sentence+video　　　　　　　输出：bounding box（train的时候没有bbox ground truth）
文章中show出来的example如下所示。
Finding “It”: Weakly-Supervised Reference-Aware Visual Grounding in Instructional Videos
文章在两个datasets上面的实验结果如下所示。

2021-06-20
2021-09-16
2021-07-04
2021-10-12
2021-11-16
2021-07-08
2021-12-14
2021-06-19