我在学习angr时,先是阅读了开发者发布在IEEE上的论文IEEE Xplore Full-Text PDF:该文章讲述了自动化漏洞挖掘的背景和方法,并对angr的架构和核心模块进行了介绍,非常经典值得一读。
而后,我阅读了angr官方文档和API文档,对angr有了总体的、晕晕乎乎的了解。最后,我发现了github上的项目angr_ctf,并使用该项目在解题过程中不断补充、修正我对angr的了解,以下是涉及的相关连接,你可能用得上:
angr官方文档README - angr Documentation
angr的API文档angr API documentation — angr 9.2.26 documentation
angr_ctf项目GitHub - jakespringer/angr_ctf
本系列教程是angr的入门教程,将通过做angr_ctf中的题目的形式来介绍angr,在每篇开头会先介绍该篇所写题目时要用到的知识,并且尽量进行详细的补充和扩展,以便于你了解angr是一个多么伟大的项目。观点均来自作者的论文、angr官方文档以及本人在实践时的思考。
angr和angr_ctf简介
angr是一个支持多处理架构的用于二进制文件分析的工具包,它提供了动态符号执行的能力以及多种静态分析的能力。项目创建的初衷,是为了整合此前多种二进制分析方式的优点,并开发一个平台,以供二进制分析人员比较不同二进制分析方式的优劣,并根据自身需要开发新的二进制分析系统和方式。
也正是因为angr是一个二进制文件分析的工具包,因此它可以被使用者扩展,用于自动化逆向工程、漏洞挖掘等多个方面。
angr_ctf则是一个专门针对angr的项目,里面有17个angr相关的题目。这些题目只有一个唯一的要求:你需要找出能够使程序输出“Good Job”的输入,这也是符号执行常见的应用场景。
项目中序号开头的文件夹里面是题目的源码和题解。
dist中保存了各个题目编译后的可执行文件,均是ELF-32bit
solutions中集合了所有题目的题解,也是所有序号开头文件夹的合集。题解文件solve包含完整题解,而scaffold则是待填充的题解,需要使用者根据程序在“???”处填入合适的内容。
angr核心概念
顶层接口
Project类是angr的主类,也是angr的开始,通过初始化该类的对象,可以将你想要分析的二进制文件加载进来,就像这样:- import angr
- p = angr.Project('/bin/true')
复制代码 参数为待分析的文件路径,它是唯一必须传入的参数,此外还有一个比较常用的参数load-options,它指明加载的方式,如下:
名称 | 描述 | 传入参数 | auto_load_libs | 是否自动加载程序的依赖 | 布尔 | skip_libs | 希望避免加载的库 | 库名 | except_missing_libs | 无法解析库时是否抛出异常 | 布尔 | force_load_libs | 强制加载的库 | 库名 | ld_path | 共享库的优先搜索路径 | 路径名 | 使用angr时最重要的就是效率问题,少加载一些无关结果的库能够提升angr的效率,如下:- import angr
- p = angr.Project('/bin/true', auto_load_libs=False)
复制代码 任何附加的参数都会被传递到angr的加载器,即CLE.loader中(CLE 即 CLE Loads Everything的缩写)
Project类中有许多方法和属性,例如加载的文件名、架构、程序入口点、大小端等等:- >>> print(p.arch, hex(p.entry), p.filename, p.arch.bits, p.arch.memory_endness )
- <Arch AMD64 (LE)> 0x4023c0 /bin/true 64 Iend_LE
复制代码
状态State
Project实际上只是将二进制文件加载进来了,要执行它,实际上是对SimState对象进行操作,它是程序的状态。用docker来比喻,Project相当于开发环境,State则是使用开发环境制作的镜像。
要创建状态,需要使用Project对象中的factory,它还可以用于创建模拟管理器和基本块(后面提到),如下:- init_state = p.factory.entry_state()
复制代码 预设状态有四种方式如下:
预设状态方式 | 描述 | entry_state | 初始化状态为程序运行到程序入口点处的状态 | blank_state(addr=) | 大多数数据都没有初始化,状态中下一条指令为addr处的指令 | full_init_state | 共享库和预定义内容已经加载完毕,例如刚加载完共享库 | call_state | 准备调用函数的状态 | 状态包含了程序运行时的一切信息,寄存器、内存的值、文件系统以及符号变量等,这些信息的使用等用到时再进一步说明。
entry_state和blank_state是常用的两种方式,后者通常用于跳过一些极大降低angr效率的指令,它们间的对比如下:- >>> state = p.factory.entry_state()
- >>> print(state.regs.rax, state.regs.rip)
- <BV64 0x1c> <BV64 0x4023c0>
复制代码- >>> state = p.factory.blank_state(addr=0x4023c0)
- >>> print(state.regs.rax, state.regs.rip)
- <BV64 reg_rax_42_64{UNINITIALIZED}> <BV64 0x4023c0>
复制代码 在blank_state方式中,我们仍将地址设定为程序的入口点,然而rax中的值由于没有初始化,它现在是一个名字,也即符号变量,这是符号执行的基础,后续在细说。
此外,可以看到寄存器中的数据类型并不是int,而是BV64,它是一个位向量(Bit Vector),有关位向量的细节之后再说。
模拟管理器(Simulation Manager)
上述方式只是预设了程序开始分析时的状态,我们要分析程序就必须要让它到达下一个状态,这就需要模拟管理器的帮助(简称SM).
使用以下指令能创建一个SM,它需要传入一个state或者state的列表作为参数:- simgr = p.factory.simgr(state)
复制代码 SM中有许多列表,这些列表被称为stash,它保存了处于某种状态的state,stash有如下几种:
stash | 描述 | active | 保存接下来可以执行并且将要执行的状态 | deadended | 由于某些原因不能继续执行的状态,例如没有合法指令,或者有非法指针 | pruned | 与solve的策略有关,当发现一个不可解的节点后,其后面所有的节点都优化掉放在pruned里 | unconstrained | 如果创建SM时启用了save_unconstrained,则没有约束条件的state会放在这里 | unsat | 如果创建SM时启用了save_unsat,则被认为不可满足的state会放在这里 | 默认情况下,state会被存放在active中。
stash中的state可以通过move()方法来转移,将fulter_func筛选出来的state从from_stash转移到to_stash:- simgr.move(from_stash='deadended', to_stash='more_then_50', filter_func=lambda s: '100' in s.posix.dumps(1))
复制代码 stash是一个列表,可以使用python支持的方式去遍历其中的元素,也可以使用常见的列表操作。但angr提供了一种更高级的方式,在stash名字前加上one_,可以得到stash中的第一个状态,加上mp_,可以得到一个mulpyplexed版本的stash
此外,稍微解释一下上面代码中的posix.dumps:
- state.posix.dumps(0):表示到达当前状态所对应的程序输入
- state.posix.dumps(1):表示到达当前状态所对应的程序输出
上述代码就是将deadended中输出的字符串包含'100'的state转移到more_then_50这个stash中。
可以通过step()方法来让处于active的state执行一个基本块,这种操作不会改变state本身:- >>> state = p.factory.entry_state()
- >>> simgr = p.factory.simgr(state)
- >>> print(state.regs.rax, state.regs.rip)
- <BV64 0x1c> <BV64 0x4023c0>
- >>> print(simgr.one_active)
- <SimState @ 0x4023c0>
- >>> simgr.step()
- <SimulationManager with 1 active>
- >>> print(simgr.one_active)
- <SimState @ 0x529240>
- >>> print(state.regs.rax, state.regs.rip)
- <BV64 0x1c> <BV64 0x4023c0>
复制代码
最后也是SM最常用的技术:探索技术(explorer techniques)
可以使用explorer方法去执行某个状态,直到找到目标指令或者active中没有状态为止,它有如下参数:
- find:传入目标指令的地址或地址列表,或者一个用于判断的函数,函数以state为形参,返回布尔值
- avoid:传入要避免的指令的地址或地址列表,或者一个用于判断的函数,用于减少路径
此外还有一些搜索策略,之后会集中讲解,默认使用DFS(深度优先搜索)。
explorer找到的符合find的状态会被保存在simgr.found这个列表当中,可以遍历其中元素获取状态。
符号执行
angr作为一个二进制分析的工具包,但它通常作为符号执行工具更为出名。
符号执行就是给程序传递一个符号而不是具体的值,让这个符号伴随程序运行,当碰见分支时,符号会进入哪个分支呢?
angr的回答是全都进入!angr会保存所有分支,以及分支后的所有分支,并且在分支时,保存进入该分支时的判断条件,通常这些判断条件时对符号的约束。
当angr运行到目标状态时,就可以调用求解器对一路上收集到的约束进行求解,最终得到某个符号能够到达当前状态的值。
例如,程序接收一个int类型的输入,当这个输入大于0小于5时,就会执行某条保存在该程序中,我们希望执行的指令(例如一个后门函数backdoor),具体而言如下图所示:
angr会沿着分支按照某种策略(默认DFS)进行状态搜索,当达到目标状态(也就是backdoor能够执行的状态),此时angr已经收集了两个约束(x>0 以及x |