论文分享：Sys: a Static/Symbolic Tool for Finding Good Bugs in Good (Browser) Code

今天分享的Usenix 2020的Sys: a Static/Symbolic Tool for Finding Good Bugs in Good (Browser) Code这篇论文。这篇论文的作者也是KLEE这个很牛逼工具的作者。
目前该论文的工具已开源在github上：https://github.com/PLSysSec/sys
在网上也看到大佬写的关于这篇论文的阅读报告（写的比我详细）：https://ycdxsb.cn/bc8e474f.html

简介

sys是一个针对很大代码量的自动找安全漏洞的静态分析工具。Sys使用两个技巧去找漏洞。首先，将几千万的系统代码分成小片段。然后使用静态checker去快速找到和标记潜在漏洞。接着，使用符号执行去检测这些潜在的漏洞是否是真实的bug。整个checker和系统只有6000行代码。Sys是灵活的，因为用户可以利用领域特定或系统特定的知识来检测出错误，并且降低误报。Sys在经过很好的检测的代码中找到了许多安全漏洞（51bug，43确定）。有趣的是，找到了一个可利用的浏览器的CVE漏洞，在7小时内被修复了。还挖到了Firefox和谷歌音频支持提供奖励的漏洞。

核心方法

这篇论文的关键点其实就是静态分析结合符号执行，首先用LLVM生成程序的IR，然后生成控制流图。利用静态分析去找一堆潜在的漏洞，再用符号执行去过滤掉一些约束不正常的路径导致的漏洞。
论文分享：Sys: a Static/Symbolic Tool for Finding Good Bugs in Good (Browser) Code

找bug的三个步骤：

静态地去检测源代码，并标记潜在的漏洞
跳到每个标记的位置去符号化地检测
推断sys错过的状态，因为sys跳过了部分代码

static:

客户端写小的静态扩展，类似checker去识别源码里的模式，从而迅速扫过所有检测的代码并且标记潜在的错误位置。sys像其他工具差不多，首先也是从LLVM 的IR层构建控制流图，然后基于用户写的扩展做一个简单的流敏感的遍历。扩展是用Haskell写的，并且使用一个built-in routine的库来分析控制流图。如果一个给定漏洞的checker已经存在了，用户就可以直接用。

figure3是个checker，主要是去找内存操作malloc(x)和索引操作memset(y)中x与y的关系。也许并不知道x，y的值，但是直到他们的关系可以找到bug。大部分这种例子并不是bug，所以后续才需要符号检测来确定是还是不是。5-7行的条件会去匹配分配的调用然后存储对象名字及分配大小之间的联系。然后11行再去匹配任何算术指令。然后去追踪指令间变量的依赖。当匹配到索引操作时（17行），就会标记索引大小和对象分配大小有依赖关系的路径。

论文分享：Sys: a Static/Symbolic Tool for Finding Good Bugs in Good (Browser) Code

symbolic：

自动化地符号执行整条路径。
应用用户的符号checker到路径上

符号执行是针对IR层做的。

由于是针对浏览器这种百万级的代码，sys可以跳过一些代码，这是sys的弱点也是有点。跳过代码的同时也跳过了代码的约束，包括内存分配及内存初始化。因此有两个问题需要解决：

如何对跳过的状态做个假的复制品
确保跳过的约束不会导致假阳性增多。

sys采用懒惰分配的策略来构成状态。如果检测的代码解引用了一个符号化的地址，sys就会为其分配内存，并继续执行。这种方法允许sys去自动分配路径需要的地址，而不需要用户干预。然而，允许构造虚假对象可能会导致假阳性，因为产生了不可能的路径和值。sys不会造成假阳性有四个理由：

sys的约束求解器消除了所有有内部矛盾的路径（比如，一条需要指针为null和non-null的路径），唯一的假阳性是因为外部环境（caller）
我们用sys针对特定的错误，而不是全部函数的正确性。
可以以一种很方便的形式找到未定义的状态。
大部分的假阳性通常是共享一个根源，然后sys checker就可以去解决由ad hoc和checker-specific trick导致的。

用sys去找bug

sys实际上主要针对两种漏洞，未初始化使用和越界读写。论文的这部分介绍了怎么用他工具去找漏洞，感兴趣的可以去看看。俺看是用Haskell这种语言弄的，暂时就先放放。

结果

一般工具都会去看看能不能找到已经发现的漏洞，这个就比较牛逼，直接发现了真实的漏洞，还薅了谷歌一大笔钱。
论文分享：Sys: a Static/Symbolic Tool for Finding Good Bugs in Good (Browser) Code
同时还和别的工具做了一下对比。

最后还说了一下这工具的可用性。只要写这么点代码就能检测漏洞了。

局限性

sys能够跳过代码，所以不是很耗时的。他不能证明漏洞的存在，而且可能会丢失掉漏洞，因为假阳性的抑制、求解的时间限制、循环边界、偏移边界的设置和检测窗口的大小。

局限性在于牺牲了准确性，从而能够检测浏览器的大型代码。

仍然会产生错误报告。其中一半是由于未知的检测函数的caller invariants。

在LLVM IR层做的，因此，开发者必须要能够编译他们的代码来使用。（相比之下，joern真的是非常的amazing！）

文章目录

简介

核心方法

用sys去找bug

结果

局限性

相关工作