提升了大范围活动的理解
区分**和隐藏的活动
对某个活动的行为模式分析
大多数的恶意注册由少数人引发
一个重复的信息往往注册很多域名
安全研究严重以来blocklist
属于某个活动(蓝色)和非活动(红色)的每日注册比例,虚线是最高点
首先在同一个时间段内注册的域名更具嫌疑,要想办法找到其子集的共同点,其注册信息是关键
email address, the address info, the registrar, the registrant name
下面选取两个属性来可视化说明
比如地区和邮件提供商,不同大小的hotspots 聚成了不同的活动,
那么这些独特的组合,往往就可以起到关键的识别作用(其实就是指纹信息)
收集了14个月注册的所有域名,包括恶意以及正常
如果有一个类(使用类似信息),并且其中的大量域名都进了黑名单,那么他就被标记为一个新的恶意活动
最终得到了20个不同的恶意活动。,见下表
黑⚪代表有相同的字符串string
五角星代表有同一的表达式expression
具体的匹配算法没有交代。
20个恶意活动的时间记录
线代表持续时间
点代表域名注册日
1.因为要发动一个恶意活动,一定会有对某个域名的大量请求。
他们首先会有一个准备阶段,也就是大量请求发生之前的阶段,这个阶段可长可短。
可以看到不同的恶意活动,往往有着不同的行为模式。
B1,B2明显一致,B3在很早就被拦截(作者没有推测具体原因)
A在注册之后立马进行了恶意活动,后面会详细谈A
将 blacklist行为与恶意活动爆发的时间差别来分了四类
改了后面的表格
那么为了得到这个表格,就需要知道哪些域名参与的活动。
为此作者设计了一种基于爆发式DNS请求的主动测量方法
下面对此部分测量方法进行介绍
首先为了修正时间偏移,能在不同的时间偏移下找到相同的模式,首先将相应域名的DNS请求都偏移到域名注册的一定时间之后
对于不同的DNS请求记录record type and country , request originated from给与不同的权重并且计算,称之为标准化过程。
通过标准化过程来保证相似的请求总是在一起的,而离异点被突出出来。(无图)
然后要使用DTW算法来计算不同域名行为相似度。例如刚刚的两个B1和B2就是这么处理出来的
并且计算不同域名的活跃等级(计算公式没有说),后面要用到
那么判断一个域名是否是潜伏的,这个阈值如何寻找,是0访问呢,还是有1个俩个也算呢,作者找了13,873个恶意域名和13,873和正常域名。
分别计算其活跃度。
绘制概率分布图,可以发现B这种有明显的阈值,
然而对于其他持续增长或者急速上升的情况,就不能这么明显
经过深思熟虑,作者决定采用0.0020 to 0.0250作为一个宽阈值,如图左边为潜伏,右边为活跃。宽阈之间有15%的数据不计入统计
每种恶意活动的域名注册以及利用策略是有区别的,直接影响着blacklist的抓取效果
以A为例,作者称为hit and run,不是每次利用之前注册新域名,而是每次发现自己的域名进入黑名单后,立马注册一批新的域名进入准备阶段。
类似策略的有ACD。
B、E采用的是囤积策略,一次注册大量域名,持续利用。B注册时产生了间断可能是由于proactive blacklisting,像这种情况并不少见,由于某些注册信息过于明显,注册的时候立马被拉黑
比如一月30,422个恶意活动A立马被拉黑,五月8日,759个恶意活动D立马被拉黑。
同时,blacklisting,以及安全研究行为、域名注册,三者之间都有交互关系。
假设可以失效