复现基于eBPF实现的Docker逃逸

一月 22, 2022

0x00 关于本文

最近搞毕业设计在研究Docker逃逸，如果只把CDK工具的东西复现一遍（或者照抄），那诚意不足，也失掉了我刻意选我不熟悉领域的题目的意义所在，于是想自己动手做点东西。

看到seebug上基于eBPF的逃逸和ScUpax0s的容器逃逸文章，我意识到基于eBPF的逃逸可以做一做，虽然他们都写了思路贴了部分代码片段，但毕竟没有放完整的代码出来，我自己踩坑实现一遍，可以学点东西，也能算是工作量。

文章中的代码实现已上传至Github。

在实现的过程中，ScUpax0s给了我许多指点，让我少走了很多弯路，感谢他！

0x01 eBPF为什么能帮助Docker逃逸

eBPF技术允许用户在用户态编写代码，被verifier扫描鉴定无问题后，送入内核执行。

eBPF可以在Linux系统的各个地方插桩，在执行到指定位置时，执行用户自定的代码，实现数据搜集和修改。因此eBPF使得用户可以在用户态高效安全地监控Linux的方方面面。

能看，还能改，黑客自然也可以拿它来使坏。更妙的是，在Docker环境中，容器和宿主机共享同一个内核，因此如果容器被赋予了CAP_SYS_ADMIN能力，成功在容器中加载了eBPF程序的话，eBPF程序将能够直接在系统的内核中运行，无视容器的各类隔离机制。因此在宿主机环境中作恶的eBPF，在容器中照作不误，它能在宿主机环境里面干上面，那就能在容器里干什么，突破隔离一步到位。

0x02 通过BPF劫持cron进行逃逸

尽管看起来很容易，但真正实现逃逸还需要一番周折。eBPF的代码仅能在触发插桩点的时候执行，它能够读参数，对指定地址的用户内存读写，但无法直接发起一个系统调用，弹一个shell回来。

seebug上基于eBPF的逃逸给出了一种思路，即利用cron进行逃逸。

cron服务在Linux系统上实现了计划任务，它每隔一段时间检查配置文件是否被更改过，如果更改了就读取配置文件，根据配置文件的描述设定定时的命令执行。因此通过劫持cron对配置文件的访问，篡改文件的更改时间和读取内容，即可欺骗cron执行我们预定的命令，而cron是运行在宿主机上的，因此欺骗cron执行了命令相当于在宿主机中执行了命令，也就是逃逸。

0x03 程序整体结构

在我的实现中，我只监听raw_tracepoint/sys_exit这个点（即系统调用返回的时候）。我看到其它的实现中由于需要获取传入的参数，所以得监听raw_tracepoint/sys_enter（即系统调用进入时）。但是在我实际测试的过程中，发现在返回的时候也能拿到这些信息，所以在我的实现中就只监听sys_exit。

如代码所示，首先通过bpf_get_current_comm获取到使用了这个系统调用的进程名，匹配到如果不是目标进程名（在我们这儿就是cron），那就返回，防止干扰到不该干扰的程序。

这里体现了通过raw_tracepoint/sys_exit这个点拦截所有系统调用统一处理，而非通过tp/syscalls/sys_exit_read这样的点单个单个地拦截系统调用的好处--对于是否是目标进程的判断，只需要做一次就好了，可以省去很多精力。

在判断了通过后，对于通过BPF_CORE_READ(regs,orig_ax)获取到的系统调用号，做一个switch case，对于不同的系统调用号，用不同的函数去分门别类地处理，这样想要处理别的调用，只需要增加case语句然后再实现一个函数即可，扩展性较好。

0x04 劫持cron的读取

我们的目标是劫持cron程序对/etc/crontab的读取，修改它的读取内容。为了实现这一点，首先我们来看看它是怎么读的。

如图所示，编辑/etc/crontab（以刷新最后编辑时间），通过strace -p <pid>追踪其系统调用，可以看到cron在读取/etc/crontab的时候，首先用openat打开然后用read读取。需要注意的是，从图的上面可以看到，cron也read了别的文件，因此我们不能一股脑地劫持所有的read然后插入我们命令，而需要针对性地劫持。

想要针对性的劫持，就需要在Hook read调用的时候，知道系统调用号对应的文件，这没法在read调用结束时直接从相关的寄存器中获取。因此需要在oenat调用的时候，读取文件名，在map中做记录。map是bpf提供的一种存放键值对数据的存储方式，我们可以用它来更持久地保存read读出来的东西

如图所示，当openat被调用的时候，代码首先匹配是否是我们感兴趣的文件（在这里是/etc/crontab)，如果是的话，就将进程的pid和文件描述符fd打包在结构体中作为键，存入map里，将值设为1。

结构体是我们自己定义的，之所以要用这个结构体把pid和fd打包到一起，是因为pid和fd的组合是唯一确定的，如果我们只记录fd的话，假设有多个进程同时启动将会造成记录的混乱。因此以上的代码实现的功能，用人话来讲就是“当看到/etc/crontab被打开的时候，记录好打开者的pid和它拿到的fd”。

当然，文件会开也会关，所以假设我们感兴趣的文件读完后关闭了，结果程序再打开别的文件时拿着相同的文件描述符fd号，我们的eBPF程序就会错误地认为这是我们感兴趣的文件并予以篡改，这样就会造成各种错误，所以我们也需要在关闭文件的系统调用close返回的时候，记录被关闭的文件，方式和上面的handle_exit_openat大同小异，感兴趣的读者可以去看Github上handle_exit_close实现。

在记录好了后，我们就可以去放心大胆地劫持read调用，篡改返回结果了。

如代码所示，在read返回的时候，先用bpf_map_lookup_elem检查键是否存在，如果存在且对应的值为1（也就是是我们感兴趣的文件，并且没有被关闭），那么判断返回结果（即读出的长度）是否长于我们即将写入的PAYLOAD，如果是的话，就用bpf_probe_write_user写入用户空间，也就是read函数读出去的地址，最终实现修改读出来的值。

0x05 劫持cron对文件修改时间的判断

依然是这张strace的结果，它展示了cron是如何判断文件是否被修改的。它通过newfstatat调用判断了两次，一次filename就是/etc/crontab，另一次filename为空但是dfd是/etc/crontab的文件描述符，经过实际测试，必须要两个都骗过去才能让它重新读/etc/crontab（然后被我们骗）。

于是代码首先对比文件fd，再对比文件名，如果有一个表名是/etc/crontab文件，那就对把返回的结构体中的修改时间设置为一个随机数。

（写这篇blog的时候发现代码忘了加if(thisistarget)了，紧急修复了下，计算器还能弹出来，但是可能还有别的bug，不过总之大体思路是不会错的)

0x06 Docker逃逸&弹计算器

最激动人心的环节就是最后的逃逸&计算器弹出的环节，想要实现这个事情，还有一些小细节要处理。

首先在makefile的CFLAGS选项中加入-static，这个是静态编译选项，要求在编译的时候把各种库都打包进来，之所以要这么做是因为Docker上面往往库不够全，直接编译无法在上面正确运行。

接着就是弹计算器的问题。毕竟执行是用root权限执行的，首先得切换成当前登录的用户，而且得设置DISPLAY变量让GUI程序能够正确显示已登录的会话上。于是在Crontab里面可以弹计算器的命令是sudo -i -u <用户名> "/bin/bash" -c "DISPLAY=:0 gnome-calculator"&

解决了这些问题后，编译出二进制文件

用docker run -ti --cap-add SYS_ADMIN ubuntu:latest /bin/bash 命令启动一个具有CAP_SYS_ADMIN能力的Docker，把文件拷进去后执行，等待一分钟，就能看到计算器弹出

搜索此博客

Driver Tom's Blog