self consistency
1 abstract
利用图片本身的EXIF信息,训练一个模型判断图片是否是自一致性的,即判断图片的每一个部分是否都是由一个图像处理pipeline产生的。
2 introduction
传统的监督学习方法在ps检测上效果不好,篡改图片的空间很大很多样,不可能有足够的训练数据来训练一个有监督学习的方法。
可以从异常检测的思路出发,判断图片是不正常的即可
EXIF信息是照相机独有的,在图片成像的时候被嵌入到图片中,包含成像设备、焦距、JPEG质量等等。
本文利用EXIF元数据作为监督信号,训练一个模型判断一张图是否是自一致性的。
这个方法是自监督的,只有真实图像和它的EXIF信息被用来训练。
三点贡献:
-
将篡改图片识别转换为一个异常检测问题,检测自一致性
-
利用了图片的元数据
-
利用学习的自一致性模型定位篡改的位置,实验评估了哪些图片元数据更predictable
3 related work
属于异常检测的范畴,但不是检测语义上的不一致
4 学习图片的自一致性
判断两个patch在n个元数据属性上的一致性,然后汇总得到一个总的一致性score,socre越低代表越不一致,很可能是来自两个图片
4.1 predicting EXIF attribute consistency
从400000图片中随机patch,在出现次数超过50000图片的attribute进行预测,n=80
输出的是在某一个特征上值相同的概率
unary re-balancing :在mini batch中,选择一个EXIF attribute然后均匀采样这个属性的取值
pairwise re-balancing:在mini batch中,对于一个给定的EXIF attribute,一半的图片相同的值,一半的图片不同
分析:
需要寻找与图像篡改有关的attribute,更加predictive
4.2 post-processing consistency
预测两个patch是否是经过同一个post-process,与EXIF信息是正交的
4.3 combing consistency predictions
two-layer MLP with 512 hidden units
4.4 Directly predicting image consistency
直接预测是否来自一张图片会需要大量的数据才能做到,不实际。
4.5 From Patch Consistency to Image Self-Consistency
到现在谈论的都是两个patch之间的一致性,需要扩展到评价一张图片的一致性。
最长边有25个patch,最多有625个patch,对于一个给定的patch我们可以可视化一个response map关于它和剩余所有patch的一致性,C25 2=300。
为了得到最终的response map,采用了mean shift
5 实验
缺点,太小的篡改找不见,欠曝光、曝光过度的找不见,copy-move不适用