Linux归档 - laumy的学习笔记

Linux

linux 实时性能测试

使能方法在linux 6.12版本之后原生SDK就支持了PREEMPT_RT，使能方式如下： make kernel_menuconfig General setup ---> <*> Fully Preemptible Kernel (Real-Time) 或者直接搜索CONFIG_PREEMPT_RT=y 确认是否已经打开 zcat /proc/config.gz | grep CONFIG_PREEMPT_RT 测试方法安装软件 sudo apt-get update sudo apt-get install rt-tests stress-ng 空载测试 # -m: 锁定内存，防止交换 # -S: SMP 多核模式 # -p99: 设置最高实时优先级 99 # -i1000: 循环间隔 1000us (1ms) # -D2m: 测试持续 2 分钟 sudo cyclictest -m -S -p99 -i1000 -D2m 压力测试终端1 # --cpu 8: 占满 8 个核心 # --io 4: 开启 4 个 IO 读写进程（模拟磁盘/存储负载） # --vm 4: 开启 4 个内存压力进程 # --vm-bytes 128M: 每个内存进程反复读写 128M 数据（制造 Cache 抖动） stress-ng --cpu 8 --cpu-method all --io 4 --vm 4 --vm-bytes 128M --fork 4 终端2 # -S: SMP 模式，自动开启 8 个线程并一对一绑核 # -p99: 最高实时优先级 # -m: 锁内存 # -D1: 跑 1 小时 (建议先跑 10 分钟看看情况) sudo cyclictest -c0 -m -S -p99 -i1000 -D1H

🕒 2026-01-20 📁 性能工具 👤 laumy 🔥 239 热度
perf工具使用

perf介绍 perf 是一个强大的 Linux 性能分析工具，广泛用于分析程序的性能瓶颈，帮助开发者进行调优。perf 工具能够收集并分析多种硬件和软件事件，包括 CPU 的指令执行、缓存命中与失误、上下文切换等。硬件事件驱：通过访问 CPU 的 PMU（性能监控单元）捕获硬件级事件，如 CPU 周期数、缓存命中/未命中、分支预测失败等。采样与统计机制：采样模式，周期性记录程序执行状态，生成热点函数分布（默认基于 CPU 时钟周期）；统计模式，精确记录特定事件的发生次数（如指令数、缓存访问次数）；内核集成优势：直接调用内核的 tracepoint 和 kprobe 机制，支持用户态与内核态的全栈追基本语法： perf <command> [options] command：perf 工具的子命令，例如 record、stat、report 等。 options：提供给 command 的选项和参数。 perf record perf record 命令用于收集性能数据，通常用来分析程序的性能瓶颈。 perf record [options] <command> -p \<pid>：指定要分析的进程的 PID。 -F \<frequency>：指定采样的频率（每秒钟采样次数）。例如，-F 99 每秒采样 99 次。 -g：收集调用图信息（调用栈信息），可以用来分析函数调用的上下文。 -e \<event>：指定要计数的事件。例如：-e cycles 计数 CPU 周期，-e cache-misses 计数缓存未命中 -- sleep \<time>：执行指定命令，并在给定的时间内采样性能数据。例如，-- sleep 30 表示记录 30 秒的数据。示例： perf record -F 99 -p 12345 -g -- sleep 30 # 这会对进程 PID 为 12345 的程序进行 30 秒的性能采样，采样频率为99Hz（默认是1000HZ），并收集调用图信息。 # record生成的是原始数据bin，无法直接查看，默认是生成perf.data，可以使用-o指定输出文件。 # 需要使用perf script转化才可解析。 perf report perf report 命令用于分析和展示 perf record 记录的性能数据。 perf report [options] -g：显示调用图（调用堆栈）信息，帮助分析函数的调用关系，如果要绘制图像，需要加这个参数。 -i \<file>：指定输入文件，默认情况下会使用 perf.data 文件。示例： perf report -g 这会显示 perf record 记录的性能数据的调用图。 perf script perf script 是一个 perf 工具的子命令，主要用于将 perf record 采集到的性能数据转换为可读的格式，并允许用户对其进行进一步处理。它的主要功能是解析性能数据文件并输出到标准输出或指定文件，方便进一步分析。 perf script [options] 将 perf record 生成的性能数据（默认文件名为 perf.data）转化为易于阅读的文本格式。可以与其他工具结合，进一步分析和处理数据。 perf script -i perf.data > output.txt 指定输入文件转化为输出文件。实践应用 perf sched perf sched 是 perf 工具中的一个子命令，用于分析与调度相关的性能数据，主要用于分析 Linux 系统中的调度器行为（即进程和线程的调度）。这个命令可以帮助开发人员深入了解进程或线程如何在 CPU 上执行，以及在多核系统上如何分配 CPU 时间。 perf sched 命令通过分析内核的调度事件（如进程切换、上下文切换、进程调度延迟等），帮助开发人员识别系统中可能的调度瓶颈或性能问题。抓取数据 perf sched record -a -g -o sched_raw.data & 解析数据： killall perf #结束进程，注意是不要使用-9强行退出，需要等待退出，保证写入的文件完整。 perf sched timehist -i sched_raw.data > sched_timehist.log perf sched latency -i sched_raw.data > sched_latency.log # 显示进程或线程的调度延迟，帮助你理解调度延迟如何影响系统性能。 perf sched script -i sched_raw.data > sched.log 解析数据 killall perf #结束进程，注意是不要使用-9强行退出，需要等待退出，保证写入的文件完整。 perf sched timehist -i sched_raw.data > sched_timehist.log perf sched latency -i sched_raw.data > sched_latency.log # 显示进程或线程的调度延迟，帮助你理解调度延迟如何影响系统性能。 perf sched script -i sched_raw.data > sched.log perf irq perf irq是perf 工具中的一个子命令，用于分析与中断（IRQ, Interrupt Request）相关的性能数据。中断是操作系统用来响应硬件或软件事件的机制。perf irq 可以帮助开发者分析中断的发生频率、持续时间及其对系统性能的影响。抓取数据抓取中断的进入和退出 perf record -e irq:irq_handler_entry,irq:irq_handler_exit -a -g -o irq_raw.data & 解析数据 killall perf perf script -i irq_raw.data > irq.log perf report -i irq_raw.data > irq_report.log 火焰图通过perf script将原始数据转换的数据，可以使用工具转换为火焰图。需要注意的时，在使用perf script转换之前，perf record需要加-g参数，记录调用栈。火焰图工具下载链接：https://github.com/brendangregg/FlameGraph 下面是转换命令： ../FlameGraph-master/stackcollapse-perf.pl < sched.log | ../FlameGraph-master/flamegraph.pl > sched.svg 其中sched.log是perf script转换的处理的数据，先使用stackcollapse-perf.pl处理数据，然后再使用flamegraph.pl绘制图像，即可使用网页打开。 y轴(竖)表示调用栈，每一层都是一个函数，调用栈越深，火焰就越高，顶部就是正在执行的函数，下方都是它的父函数。 x轴（横）表示抽样数，若一个函数在x轴占据的宽度越宽，就表示它被抽到的次数多，即执行的时间长。注意，x 轴不代表时间，而是所有的调用栈合并后，按字母顺序排列的。火焰图就是看顶层的哪个函数占据的宽度最大。只要有"平顶"（plateaus），就表示该函数可能存在性能问题。点击一层会水平放大，左上角会同时显示"Reset Zoom"，点击该链接，图片就会恢复原样。

🕒 2025-05-14 📁 性能工具 👤 laumy 🔥 962 热度
密码保护：移动检测代码示例分析

此内容受密码保护。如需查看请在下方输入访问密码：密码：

🕒 2024-11-17 📁 设备驱动 👤 laumy 🔥 286 热度
密码保护：RTSP视频传输示例代码分析

此内容受密码保护。如需查看请在下方输入访问密码：密码：

🕒 2024-11-17 📁 设备驱动 👤 laumy 🔥 374 热度
密码保护：拍照示例代码分析

此内容受密码保护。如需查看请在下方输入访问密码：密码：

🕒 2024-11-17 📁 设备驱动 👤 laumy 🔥 302 热度
密码保护：视频编码示例

此内容受密码保护。如需查看请在下方输入访问密码：密码：

🕒 2024-09-05 📁 设备驱动 👤 laumy 🔥 291 热度
function graph tracer原理

概述 Function graph相对function trace的不同点是，在函数入口会trace，在函数出口也会trace。 ksys_read ->vfs_read ->ftrace_caller ->prepare_ftrace_return ->function_graph_enter ->ftrace_push_return_trace(&trace, &ret, frame_pointer) ->trace_graph_entry = funcgraph_ops.entryfunc ->__trace_graph_entry ->trace_buffer_unlock_commit_nostack(buffer, event) Xxxxxxx 函数体内容 ->return_to_handler ----修改的vfs_read的ra寄存器，让其执行ret返回是跳转到这个函数。 ->ftrace_return_to_handler ->ftrace_pop_return_trace(&trace, &ret, frame_pointer) ->ftrace_graph_return(&trace) ->trace_graph_return =funcgraph_ops.retfunc ->__trace_graph_return(tr, trace, trace_ctx) ->trace_buffer_unlock_commit_nostack(buffer, event); ret 注册与前面章节的function tracer一样，当前执行echo function_graph > current_tracer时就会待用到graph_trace_init函数。与function tracer一样，当echo function_graph > current_tracer后，函数的入口nop指令会被替换为ftracer_caller。当还没有写入function_graph时，ftrace_caller的实现如下，其中第一处ftrace_stub是用于function tracer替换的，而第二处则是给function_graph替换的。当写入function_graph到current_tracer后，第二处的ftrace_stub被替换为prepare_ftrace_return，如下： static struct fgraph_ops funcgraph_ops = { .entryfunc = &trace_graph_entry, .retfunc = &trace_graph_return, }; int graph_trace_init(struct trace_array *tr) ret = register_ftrace_graph(&funcgraph_ops); tracing_start_cmdline_record(); tracing_start_sched_switch(RECORD_CMDLINE); 跟踪入口函数下面我们来实际跟踪一下ftrace_caller之后的实现。 ENTRY(ftrace_caller) SAVE_ABI addi a0, t0, -FENTRY_RA_OFFSET la a1, function_trace_op REG_L a2, 0(a1) mv a1, ra mv a3, sp ftrace_call: .global ftrace_call call ftrace_stub #ifdef CONFIG_FUNCTION_GRAPH_TRACER addi a0, sp, ABI_RA REG_L a1, ABI_T0(sp) addi a1, a1, -FENTRY_RA_OFFSET #ifdef HAVE_FUNCTION_GRAPH_FP_TEST mv a2, s0 #endif ftrace_graph_call: .global ftrace_graph_call call ftrace_stub #endif RESTORE_ABI jr t0 ENDPROC(ftrace_caller) 上面代码经过宏展开后，变成下面的代码，我们从调用vfs_read的函数ksys_read开始分析。 ksys_read->vfs_read ... 0xffffffff80384e6e <ksys_read+122>: auipc ra,0xfffff 0xffffffff80384e72 <ksys_read+126>: jalr 594(ra) # 0xffffffff803840c0 <vfs_read> ① ra=PC+4,即0xffffffff80384e76 ,PC=0xffffffff803840c0，这里保存了调用vfs_read的返回地址。 0xffffffff80384e76 <ksys_read+130>: mv s2,a0 0xffffffff80384e78 <ksys_read+132>: bltz a0,0xffffffff80384ef4 <ksys_read+256> vfs_read->ftrace_caller 0xffffffff803840c0 <vfs_read+0>: auipc t0,0xffc88 0xffffffff803840c4 <vfs_read+4>: jalr t0,1404(t0) # 0xffffffff8000c63c <ftrace_caller> ② t0=PC+4即0xffffffff803840c8，PC=0xffffffff8000c63c，这里没有使用ra，而是使用了t0，因此ra得以传递到ftrace_caller。 0xffffffff803840c8 <vfs_read+0>: addi sp,sp,-176 0xffffffff803840ca <vfs_read+2>: sd s0,160(sp) ftrace_caller->prepare_ftrace_return Dump of assembler code for function ftrace_caller: 0xffffffff8000c63c <+0>: addi sp,sp,-80 => 0xffffffff8000c63e <+2>: sd a0,0(sp) 0xffffffff8000c640 <+4>: sd a1,8(sp) 0xffffffff8000c642 <+6>: sd a2,16(sp) 0xffffffff8000c644 <+8>: sd a3,24(sp) 0xffffffff8000c646 <+10>: sd a4,32(sp) 0xffffffff8000c648 <+12>: sd a5,40(sp) 0xffffffff8000c64a <+14>: sd a6,48(sp) 0xffffffff8000c64c <+16>: sd a7,56(sp) 0xffffffff8000c64e <+18>: sd t0,64(sp) 存储了ftrace_caller的返回地址。 0xffffffff8000c650 <+20>: sd ra,72(sp) 存储了vfs_read的返回地址。 ③开辟一个栈空间，将寄存器入栈 0xffffffff8000c652 <+22>: addi a0,t0,-8 0xffffffff8000c656 <+26>: auipc a1,0x251c 0xffffffff8000c65a <+30>: addi a1,a1,578 # 0xffffffff82528898 <function_trace_op> 0xffffffff8000c65e <+34>: ld a2,0(a1) ④获取全局变量function_trace_op，这是struct ftrace_ops实例，function_trace_op.func存储了跟踪函数。 0xffffffff8000c660 <+36>: mv a1,ra 0xffffffff8000c662 <+38>: mv a3,sp ⑤a1参数记录了vfs_read的返回地址，a3记录了栈 0xffffffff8000c664 <+40>: auipc ra,0x0 0xffffffff8000c668 <+44>: jalr -1604(ra) # 0xffffffff8000c020 <ftrace_stub> ⑥因为使能的是function_graph，所以ftrace_stub没有被替换 0xffffffff8000c66c <+48>: addi a0,sp,72 ⑦sp+72存储的是vfs_read的ra，因此a0的值即为vfs_read函数ra的地址，*a0即返回地址，a0代表的是第一个函数参数，因此第一个函数参数为vfs_read的*parent。 0xffffffff8000c66e <+50>: ld a1,64(sp) 0xffffffff8000c670 <+52>: addi a1,a1,-8 ⑧ sp+64存储的是ftrace_caller的返回地址，用ftrace_call的返回地址-8就为vfs_read的入口地址，所以a1代表的是vfs_read的入口地址。 0xffffffff8000c672 <+54>: mv a2,s0 ⑨ a2为当前栈帧 0xffffffff8000c674 <+56>: auipc ra,0x0 0xffffffff8000c678 <+60>: jalr -1338(ra) # 0xffffffff8000c13a <prepare_ftrace_return> ⑩ 更新ra=0xffffffff8000c67c，跳转到prepare_ftrace_return 0xffffffff8000c67c <+64>: ld a0,0(sp) 0xffffffff8000c67e <+66>: ld a1,8(sp) 0xffffffff8000c680 <+68>: ld a2,16(sp) 0xffffffff8000c682 <+70>: ld a3,24(sp) 0xffffffff8000c684 <+72>: ld a4,32(sp) 0xffffffff8000c686 <+74>: ld a5,40(sp) 0xffffffff8000c688 <+76>: ld a6,48(sp) 0xffffffff8000c68a <+78>: ld a7,56(sp) 0xffffffff8000c68c <+80>: ld t0,64(sp) 0xffffffff8000c68e <+82>: ld ra,72(sp) 0xffffffff8000c690 <+84>: addi sp,sp,80 0xffffffff8000c692 <+86>: jr t0 End of assembler dump. 从上面可知，ftrace_caller函数后，就跳转到prepare_ftrace_return。接下来看看prepare_ftrace_return void prepare_ftrace_return(unsigned long *parent, unsigned long self_addr, unsigned long frame_pointer) { unsigned long return_hooker = (unsigned long)&return_to_handler; unsigned long old; if (unlikely(atomic_read(¤t->tracing_graph_pause))) return; /* * We don't suffer access faults, so no extra fault-recovery assembly * is needed here. */ old = *parent; if (!function_graph_enter(old, self_addr, frame_pointer, parent)) *parent = return_hooker; 调用function_graph_enter，同时将vfs_read的返回地址修改为return_to_handler，也就是说当vfs_read函数执行返回时，会跳转到return_to_handler运行，这样就相当于在vfs_read的出口函数也插桩了。 } function_graph_enter int function_graph_enter(unsigned long ret, unsigned long func, unsigned long frame_pointer, unsigned long *retp) { struct ftrace_graph_ent trace; #ifndef CONFIG_HAVE_DYNAMIC_FTRACE_WITH_ARGS /* * Skip graph tracing if the return location is served by direct trampoline, * since call sequence and return addresses are unpredictable anyway. * Ex: BPF trampoline may call original function and may skip frame * depending on type of BPF programs attached. */ if (ftrace_direct_func_count && ftrace_find_rec_direct(ret - MCOUNT_INSN_SIZE)) return -EBUSY; #endif trace.func = func; trace.depth = ++current->curr_ret_depth; if (ftrace_push_return_trace(ret, func, frame_pointer, retp)) goto out; ① 将要跟踪函数vfs_read的返回地址、函数名称、进入时间存储到当前任务的task_struct中。 /* Only trace if the calling function expects to */ if (!ftrace_graph_entry(&trace)) goto out_ret; ②struct fgraph_ops funcgraph_ops.entryfunc = &trace_graph_entry，调用trace_graph_entry函数，将trace信息写入ring buffer。 return 0; out_ret: current->curr_ret_stack--; out: current->curr_ret_depth--; return -EBUSY; } ftrace_push_return_trace，将要跟踪函数vfs_read的返回地址、函数名称、进入时间存储到当前任务的task_struct中。 static int ftrace_push_return_trace(unsigned long ret, unsigned long func, unsigned long frame_pointer, unsigned long *retp) { unsigned long long calltime; int index; if (unlikely(ftrace_graph_is_dead())) return -EBUSY; if (!current->ret_stack) return -EBUSY; /* * We must make sure the ret_stack is tested before we read * anything else. */ smp_rmb(); /* The return trace stack is full */ if (current->curr_ret_stack == FTRACE_RETFUNC_DEPTH - 1) { atomic_inc(¤t->trace_overrun); return -EBUSY; } calltime = trace_clock_local(); index = ++current->curr_ret_stack; barrier(); current->ret_stack[index].ret = ret; current->ret_stack[index].func = func; current->ret_stack[index].calltime = calltime; //将vfs_read的返回地址、vfs_read函数、进入vfs_read时间记录到当前任务的ret_stack，后续vfs_read退出时会使用到。 //current是当前运行任务的struct task_sturct，在该结构中，为function graph专门定义了一块空间用于存储记录上面的信息。 #ifdef HAVE_FUNCTION_GRAPH_FP_TEST current->ret_stack[index].fp = frame_pointer; #endif #ifdef HAVE_FUNCTION_GRAPH_RET_ADDR_PTR current->ret_stack[index].retp = retp; #endif return 0; } 跟踪出口函数当被跟踪的函数要退出时，由于修改了其ra寄存器，因此会跳转到return_to_handler，本文的实例是vfs_read，因此当vfs_read函数执行完时，本应该执行ret就退出，但是在前面将ra的内容改了，继而跳转执行return_to_handler。 #ifdef CONFIG_FUNCTION_GRAPH_TRACER ENTRY(return_to_handler) /* * On implementing the frame point test, the ideal way is to compare the * s0 (frame pointer, if enabled) on entry and the sp (stack pointer) on return. * However, the psABI of variable-length-argument functions does not allow this. * * So alternatively we check the *old* frame pointer position, that is, the * value stored in -16(s0) on entry, and the s0 on return. */ #ifdef HAVE_FUNCTION_GRAPH_FP_TEST mv t6, s0 #endif SAVE_RET_ABI_STATE #ifdef HAVE_FUNCTION_GRAPH_FP_TEST mv a0, t6 #endif call ftrace_return_to_handler mv a2, a0 RESTORE_RET_ABI_STATE jalr a2 ENDPROC(return_to_handler) #endif ftrace_return_to_handler unsigned long ftrace_return_to_handler(unsigned long frame_pointer) { struct ftrace_graph_ret trace; unsigned long ret; ftrace_pop_return_trace(&trace, &ret, frame_pointer); ①与前面的ftrace_push_return_trace对应，将trace相关信息获取出来，如vfs_read的返回地址信息。 trace.rettime = trace_clock_local(); ftrace_graph_return(&trace); ② 调用graph 退出函数，调用trace_graph_return->__trace_graph_return，将信息更新写入ring buffer。 /* * The ftrace_graph_return() may still access the current * ret_stack structure, we need to make sure the update of * curr_ret_stack is after that. */ barrier(); current->curr_ret_stack--; if (unlikely(!ret)) { ftrace_graph_stop(); WARN_ON(1); /* Might as well panic. What else to do? */ ret = (unsigned long)panic; } return ret; }

🕒 2024-08-31 📁 性能工具 👤 laumy 🔥 517 热度
密码保护：Camera基础知识

此内容受密码保护。如需查看请在下方输入访问密码：密码：

🕒 2024-08-29 📁 设备驱动 👤 laumy 🔥 279 热度
静态ftrace

上面章节主要描述的是动态ftrace，在早期还有静态ftrace。区别主要如下： - 动态ftrace与静态ftrace在编译参数方面静态编译使用的是参数“-pg”，而动态使用的是fpatchable-function-entry。 - 工具链使能“-pg”参数时，会在每个函数体前面插入_mcount函数。而动态ftrace会在函数入口（函数准备阶段前）插入nop指令。 - 静态ftrace插入的_mcout直到代码运行期间一直存在，而动态ftrace在不使能tracer是nop指令，动态ftrace可以动态的修改代码。内核编译时，使能CONFIG_FUNCTION_TRACER时会启动该参数编译，在kernel目录下的Makefile可以看到。 # The arch Makefiles can override CC_FLAGS_FTRACE. We may also append it later. ifdef CONFIG_FUNCTION_TRACER CC_FLAGS_FTRACE := -pg endif 基本原理 void ftrace_stub(void) { return; } void mcount(void) { /* save any bare state needed in order to do initial checking */ extern void (*ftrace_trace_function)(unsigned long, unsigned long); if (ftrace_trace_function != ftrace_stub) goto do_trace; ① 如果用户定义了trace函数，那么就跳转到do_trace，执行ftrace_trace_function。否则什么都不做，直接返回。 /* restore any bare state */ return; do_trace: /* save all state needed by the ABI (see paragraph above) */ unsigned long frompc = ...; unsigned long selfpc = <return address> - MCOUNT_INSN_SIZE; ftrace_trace_function(frompc, selfpc); ② 跳转执行ftrace_trace_function /* restore all state needed by the ABI */ } 编译完成插桩点通过反汇编objdump -D vmlinux > log后查看_mcount被插入到了vfs_read中，插入的位置在函数准备阶段之后，函数体内容之前。系统运行时，可以使用gdb 查看汇编指令，与上面基本一致。我们接着再查看以下_mcount的实现，如下

🕒 2024-08-29 📁 性能工具 👤 laumy 🔥 410 热度
动态function tracer原理

fpatchable-function-entry选项编译时指定-fpatchable-function-entry=N[,M]，①会在函数入口第一个指令之前插入N个nop，但是会保留M个放到函数入口之前，如果省略M则默认为0；②同时需要一个特殊的-fpatchable-function-entry段来记录所有函数的入口，如下蓝色部分。nop指令保留了额外的空间，可用于在运行时修改nop指令，添加自己想要的桩点，前提是代码段可写的。 echo \'void test(){;}\' > test.c $ riscv64-unknown-linux-gnu-gcc test.c -x c -c -fpatchable-function-entry=3,1 -S -o - riscv64-unknown-linux-gnu-gcc: warning: \'-x c\' after last input file has no effect .file \"test.c\" .option nopic .text .align 1 .globl test .section __patchable_function_entries,\"aw\",@progbits .align 3 .8byte .LPFE1 .text .LPFE1: nop .type test, @function test: nop nop addi sp,sp,-16 sd s0,8(sp) addi s0,sp,16 nop ld s0,8(sp) addi sp,sp,16 jr ra .size test, .-test .ident \"GCC: (Xuantie-900 linux-5.10.4 glibc gcc Toolchain V2.8.1 B-20240115) 10.4.0\" .section .note.GNU-stack,\"\",@progbits risc-v 内核编译与链接在本文的实验平台的RISC-V架构中，使用编译选项-fpatchable-function-entry进行编译，在内核arch/riscv/Makefile中指定CC_FLAGS_FTRACE:=-fpatchable-function-entry=X来编译内核组件。添加上面参数后，编译后的目标文件，就会有两个特征： - 每个函数入口，第一条指令前插入nop指令。 - 在__patchable_function_entries段重定位中，记录了当前目标文件所有函数入口地址。 Linux内核最终会链接合并成vmlinux.o，在链接重定位阶段会将所有.o中的__patchable_function_entries段重定位段信息合并起来。具体在链接脚本中include/asm-generic/vmlinux.lds.h中MCOUNT_REC的描述。如上图，nop指令的长度位2字节（16bit，用的是压缩指令c.nop），不管是多少位系统这是默认内核编译nop指令的长度，因此函数入口插入的nop总长度4*2字节=8字节，这8字节的nop会在开启函数跟踪的时候修改位对应长度的跳转指令，在启动过程中或函数跟踪关闭的时候修改位对应长度的nop。从上可知，可以通过__{start,stop}_mcount_loc符号获取到所有函数入口，同时每个函数入口都会插入nop指令，相当于定位了所有函数的入口在哪，后续就可以对指令进行修改，如下图所示。为什么要用一个section来记录所有函数入口地址？这是因为记录的函数入口地址，就记录的nop指令的位置，在程序运行过程中才能把nop指令进行修改为指定的跟踪函数。在动态ftrace中，系统启动初始化时会将所有的函数入口地址记录到struct dyn_ftrace结构体中，3.4章节会介绍到。桩点更新过程概览接下来我们以函数vfs_read进行实例分析，从编译到系统启动，再到使能function trace这一过程来进行简单分析插装点变化。编译插桩点本文的实验平台=-fpatchable-function-entry=4，即编译完成后，需要在函数入口处插入4个nop指令，我们通过riscv64-unknown-linux-gnu-objdump -D vmlinux > log反汇编查看vfs_read如下： ffffffff8039e398 : ffffffff8039e398: 0001 nop ffffffff8039e39a: 0001 nop ffffffff8039e39c: 0001 nop ffffffff8039e39e: 0001 nop ffffffff8039e3a0: 7171 addi sp,sp,-176 ffffffff8039e3a2: f122 sd s0,160(sp) ffffffff8039e3a4: f4de sd s7,104(sp) ffffffff8039e3a6: f506 sd ra,168(sp) ffffffff8039e3a8: ed26 sd s1,152(sp) ffffffff8039e3aa: e94a sd s2,144(sp) ffffffff8039e3ac: e54e sd s3,136(sp) ffffffff8039e3ae: e152 sd s4,128(sp) ffffffff8039e3b0: fcd6 sd s5,120(sp) ffffffff8039e3b2: f8da sd s6,112(sp) ffffffff8039e3b4: f0e2 sd s8,96(sp) ffffffff8039e3b6: 1900 addi s0,sp,176 ffffffff8039e3b8: 021c0b97 auipc s7,0x21c0 ffffffff8039e3bc: d08b8b93 addi s7,s7,-760 # ffffffff8255e0c0 ffffffff8039e3c0: 000bb703 ld a4,0(s7) ffffffff8039e3c4: 497c lw a5,84(a0) ffffffff8039e3c6: fae43423 sd a4,-88(s0) ffffffff8039e3ca: 0017f713 andi a4,a5,1 ...... 启动初始化调整nop指令长度在系统启动阶段，会调用ftrace_init函数，将所有的入口函数地址记录到struct dyn_frtace实例结构中，然后将4个RV32C压缩指令替换为RV32I模式的nop指令，即原来的4个2字节长度的nop指令，将会拓展为2个4字节的拓展指令。我们在系统启动时先在ftrace_init地方打断点，先观察vfs_read处的指令情况。disassemble 0xffffffff8039e398,+50查看地址开始的指令。（不能使用disassemble vfs_read,+50查看，这样会把前面的插桩过滤掉，需要使用地址的方式）。可以看到，跟上一节中我们反汇编看到的指令是一致了，4条nop指令还没有被替换。接着我们使用n继续进行调试运行，当运行完ftrace_process_locs后，我们再来查看一下变化。我们发现之前4条2字节的nop指令被替换成了2条4字节的nop指令了。为什么要调整nop指令的长度了，个人理解应该是为了兼顾处理器流水线的优化、指令对齐等，比如跳转到指定标签运行是auipc+jalr两条4字节的指令。之所以不在编译时就确定时因为延迟运行调整nop指令的长度，可以更好的平衡系统的兼容性和灵活性。替换入口函数的nop 当我们使能function tracer后，nop指令就会被替换为ftrace_caller。接下来我们使能 echo function > /sys/kernel/debug/tracing/current_tracer再来看看vfs_read的情况。从上面可知，之前的2条nop指令就被替换为了auipc+jalr指令，即跳转到ftrace_caller函数。替换跟踪函数ftrace_stub 执行echo function >current_tracer时，除了函数入口的nop指令会被替换为ftrace_caller外，ftrace_caller的实现中，ftrace_stub也会替换为function_trace_call。更新代码会调用到ftrace_modify_all_code函数，我们对此函数进行断点观察前后变化。如上图，在还没有执行命令echo function > current_tracer时，ftrace_caller执行的是ftrace_stub，当执行命令后，就变成跳转如下i b。具体的实例代码如下，切换前： ENTRY(ftrace_caller) SAVE_ABI addi a0, t0, -FENTRY_RA_OFFSET la a1, function_trace_op REG_L a2, 0(a1) mv a1, ra mv a3, sp ftrace_call: .global ftrace_call call ftrace_stub ①未执行echo function > current_tracer RESTORE_ABI jr t0 ENDPROC(ftrace_caller) 执行命令echo function > current_tracer后，ftrace_caller标签处就会变为如下： ENTRY(ftrace_caller) SAVE_ABI addi a0, t0, -FENTRY_RA_OFFSET la a1, function_trace_op REG_L a2, 0(a1) mv a1, ra mv a3, sp ftrace_call: .global ftrace_call call function_trace_call ①执行echo function > current_tracer RESTORE_ABI jr t0 ENDPROC(ftrace_caller) ftrace_caller调用流程 gdb 调试继续跟踪ftrace_caller实现。 (gdb) => 0xffffffff8039e398 : ffc6e297 auipc t0,0xffc6e 0xffffffff8039e39c : 3f4282e7 jalr t0,1012(t0) # 0xffffffff8000c78c ①进入vfs_read函数入口是，跳转到ftrace_caller，t0=PC+4，即0xffffffff8039e3a0 0xffffffff8039e3a0 : addi sp,sp,-176 0xffffffff8039e3a2 : sd s0,160(sp) ..... ftrace_caller () at arch/riscv/kernel/mcount-dyn.S:135 135 SAVE_ABI ②开辟一段栈空间，将a0~a7,t0/ra入栈。 => 0xffffffff8000c78c : 715d addi sp,sp,-80 0xffffffff8000c78e : e02a sd a0,0(sp) 0xffffffff8000c790 : e42e sd a1,8(sp) 0xffffffff8000c792 : e832 sd a2,16(sp) 0xffffffff8000c794 : ec36 sd a3,24(sp) 0xffffffff8000c796 : f03a sd a4,32(sp) 0xffffffff8000c798 : f43e sd a5,40(sp) 0xffffffff8000c79a : f842 sd a6,48(sp) 0xffffffff8000c79c : fc46 sd a7,56(sp) 0xffffffff8000c79e : e096 sd t0,64(sp) 0xffffffff8000c7a0 : e486 sd ra,72(sp) 137 addi a0, t0, -FENTRY_RA_OFFSET ②获取vfs_read的入口地址。 => 0xffffffff8000c7a2 : ff828513 addi a0,t0,-8 138 la a1, function_trace_op ③获取全局变量function_trace_op，这是ftrace的操作集合，包含了ftrace的函数。 => 0xffffffff8000c7a6 : 0254e597 auipc a1,0x254e 0xffffffff8000c7aa : 5f258593 addi a1,a1,1522 # 0xffffffff8255ad98 139 REG_L a2, 0(a1) ④获取ftrace_trace_op地址存储到a2中。 => 0xffffffff8000c7ae : 6190 ld a2,0(a1) 140 mv a1, ra 141 mv a3, sp 145 call ftrace_stub => 0xffffffff8000c7b4 : 00198097 auipc ra,0x198 0xffffffff8000c7b8 : e5a080e7 jalr -422(ra) # 0xffffffff801a460e at kernel/trace/trace_functions.c:175 function_trace_call(unsigned long ip, unsigned long parent_ip,struct ftrace_ops *op, struct ftrace_regs *fregs) ⑤ ip为入口函数vfs_read的地址即a0, parent_ip为vfs_read的父函数，调用vfs_read地址处的下一条指令。op为ftrace_trace_op，fregs为栈地址。 trace_function entry = ring_buffer_event_data(event); entry->ip = ip; entry->parent_ip = parent_ip; ftrace_exports(event, TRACE_EXPORT_FUNCTION); ⑥ 将信息写入到ring buffer中。 while(export) { trace_process_export(export, event, flag); export->write(export, entry, size); } ftrace_caller () at arch/riscv/kernel/mcount-dyn.S:148 148 addi a0, sp, ABI_RA 149 REG_L a1, ABI_T0(sp) 150 addi a1, a1, -FENTRY_RA_OFFSET 152 mv a2, s0 156 call ftrace_stub ⑦对function graph tracer进行处理，当前使能的是function tracer，所以ftrace_stub函数直接直接为ret，如下。 ftrace_stub () at arch/riscv/kernel/mcount.S:55 55 ret => 0xffffffff8000c170 : 8082 ret 0xffffffff8000c172 : 0001 nop ftrace_caller () at arch/riscv/kernel/mcount-dyn.S:158 158 RESTORE_ABI ⑧恢复寄存器，准备返回。 ftrace_caller () at arch/riscv/kernel/mcount-dyn.S:159 159 jr t0 => 0xffffffff8000c7e2 : 8282 jr t0 总结一下： ftrace_caller call ftrace_stub => call function_trace_call trace_function ftrace_exports export->write(export, entry, size) 从上可知，ftrace_stub被赋值为function_trace_call，该函数是什么时候被替换的了？我们留着后续进行3.5章节进行分析。 ftrace_init ftrace_init通过读取__{start,stop}_mcount_loc字段中记录所有的函数入口地址，所有的入口地址被记录到最小的实例struct dyn_ftrace结构体中，这些结构体最终打包形成pg链表节点，首节点为start_pg，遍历start_pg链表执行ftrace_init_nop把4个nop指令。数据结构在section中__{start,stop}_mcount_loc字段中记录所有的函数入口地址，每个函数入口地址都有一个struct dyn_ftrace数据结构实例来记录。每个页面（page）可以存放多个struct_ftrace实例，多个页面组成一个groups。每个组使用struct ftrace_pages节点来进行管理，多个struct ftrace_pages组成一个链表，具体的结构如上图所示。 void __init ftrace_init(void) { extern unsigned long __start_mcount_loc[]; extern unsigned long __stop_mcount_loc[]; ① _start_mcount_loc和_stop_mcount_loc分别是所有入口函数段的开始和结束。 unsigned long count, flags; int ret; local_irq_save(flags); ret = ftrace_dyn_arch_init(); local_irq_restore(flags); if (ret) goto failed; count = __stop_mcount_loc - __start_mcount_loc; if (!count) { pr_info(\\\"ftrace: No functions to be traced?\\\\n\\\"); goto failed; } pr_info(\\\"ftrace: allocating %ld entries in %ld pages\\\\n\\\", count, DIV_ROUND_UP(count, ENTRIES_PER_PAGE)); ② count所有的插桩点的总数，DIV_ROUND_UP(count, ENTRIES_PER_PAGE))表示需要分配多少个pages，每个插桩点都使用struct dyn_ftrace来记录。下面是qumu上的打印 [ 0.000000] ftrace: allocating 37736 entries in 148 pages 一共有37736个插桩点，需要148 * 4KB=592KB的内存。 ret = ftrace_process_locs(NULL, __start_mcount_loc, __stop_mcount_loc); if (ret) { pr_warn(\\\"ftrace: failed to allocate entries for functions\\\\n\\\"); goto failed; } ③ 将所有的插桩点地址记录到struct dyn_ftrace实例中，如数据结构图中，每个插桩点都有要给struct dyn_ftrace实例，实例空间分配page，每个page有多个struct dyn_ftrace的实例。然后遍历地址将4条nop指令调整为2条nop指令（本章节的实验）。 pr_info(\\\"ftrace: allocated %ld pages with %ld groups\\\\n\\\", ftrace_number_of_pages, ftrace_number_of_groups); last_ftrace_enabled = ftrace_enabled = 1; ④设置过滤？ set_ftrace_early_filters(); return; failed: ftrace_disabled = 1; } 分配数据结构 static int ftrace_process_locs(struct module *mod, unsigned long *start, unsigned long *end) { struct ftrace_page *start_pg; struct ftrace_page *pg; struct dyn_ftrace *rec; unsigned long count; unsigned long *p; unsigned long addr; unsigned long flags = 0; /* Shut up gcc */ int ret = -ENOMEM; count = end - start; if (!count) return 0; start_pg = ftrace_allocate_pages(count); if (!start_pg) return -ENOMEM; ① 分配ftrace page，里面存放的是struct dyn_ftrace，具体结构如3.3.1数据结构图，用于后续存放地址。 ...... } 记录插桩地址 static int ftrace_process_locs(struct module *mod, unsigned long *start, unsigned long *end) { ...... p = start; pg = start_pg; while (p < end) { unsigned long end_offset; addr = ftrace_call_adjust(*p++); /* * Some architecture linkers will pad between * the different mcount_loc sections of different * object files to satisfy alignments. * Skip any NULL pointers. */ if (!addr) continue; end_offset = (pg->index+1) * sizeof(pg->records[0]); if (end_offset > PAGE_SIZE order) { /* We should have allocated enough */ if (WARN_ON(!pg->next)) break; pg = pg->next; } rec = &pg->records[pg->index++]; rec->ip = addr; ② 遍历将所有的插桩点地址存储到struct dyn_ftrace中。 } ...... } 更新插桩指令nop static int ftrace_process_locs(struct module *mod, unsigned long *start, unsigned long *end) { ...... if (!mod) local_irq_save(flags); ftrace_update_code(mod, start_pg); if (!mod) local_irq_restore(flags); ...... } ftrace_update_code(mod, start_pg); for (pg = new_pgs; pg; pg = pg->next) { ftrace_nop_initialize(mod, p) ftrace_init_nop(mod, rec) out = ftrace_make_nop(mod, rec, MCOUNT_ADDR); unsigned int nops[2] = {NOP4, NOP4}; patch_text_nosync((void *)rec->ip, nops, MCOUNT_INSN_SIZE) patch_insn_write(tp, insns, len) addr = patch_map(addr, FIX_TEXT_POKE0); //fixmap FIX_TEXT_POKE0映射地址 ret = copy_to_kernel_nofault(waddr, insn, len); pagefault_disable() //关掉缺页异常 copy_to_kernel_nofault_loop(dst, src, size, u64, Efault) __put_kernel_nofault __put_user_nocheck __put_user_asm(\\\"sw\\\", (x), __gu_ptr, __pu_err) //写内存指令 pagefault_disable() patch_unmap(FIX_TEXT_POKE0); } 入口函数与跟踪函数替换入口函数：两条nop指令替换为ftrace_caller。跟踪函数：call ftrace_stub替换为call function_trace_call。前面描述了使能function tracer后会将nop指令替换为ftrace_caller和将ftrace_stub替换为function_trace_call。当echo function > current_tracer就会通过文件系统调用到tracing_set_trace_write函数，本章节从该函数来具体分析下替换过程。 tracing_set_trace_write(struct file *filp, const char __user *ubuf, size_t cnt, loff_t *ppos) err = tracing_set_tracer(tr, name) for (t = trace_types; t; t = t->next) { if (strcmp(t->name, buf) == 0) break; } ①trace有很多个类型，匹配function类型获取到struct tracer *t。 if (t->init) { ret = tracer_init(t, tr); if (ret) goto out; } ②调用对应tracer的初始化函数，我们这里使能的是function，因此调用的是function_trace_init 每个tracer都有一个对应的实例，对应function类型的tracer实例如下，会调用register_tracer(&function_trace)函数进行注册tracer。 static struct tracer function_trace __tracer_data = { .name = \\\"function\\\", .init = function_trace_init, .reset = function_trace_reset, .start = function_trace_start, .flags = &func_flags, .set_flag = func_set_flag, .allow_instances = true, }; 接下来，接着看看function_trace_init函数实现。 static int function_trace_init(struct trace_array *tr) { ftrace_func_t func; func = select_trace_function(func_flags.val); if (!func) return -EINVAL; ①根据func_flags.val来选择跟踪函数，这里默认选择function_trace_call if (!handle_func_repeats(tr, func_flags.val)) return -ENOMEM; ftrace_init_array_ops(tr, func); ② 设置struct ftrace_ops.func = function_trace_call tr->array_buffer.cpu = raw_smp_processor_id(); tracing_start_cmdline_record(); tracing_start_function_trace(tr); ③ 注册ftrace_function return 0; } 全局ftrace_ops_list 如上图，ftrace_call的地方可以需要trace function，也要用于perf，那么就会再perf和function trace上面再封装一层，把ftrace_stub替换为ftrace_ops_list_func，在系统中ftrace_ops_list_func = arch_ftrace_ops_list_func。 void arch_ftrace_ops_list_func(unsigned long ip, unsigned long parent_ip, struct ftrace_ops *op, struct ftrace_regs *fregs) { __ftrace_ops_list_func(ip, parent_ip, NULL, fregs); } static nokprobe_inline void __ftrace_ops_list_func(unsigned long ip, unsigned long parent_ip, struct ftrace_ops *ignored, struct ftrace_regs *fregs) { struct pt_regs *regs = ftrace_get_regs(fregs); struct ftrace_ops *op; int bit; /* * The ftrace_test_and_set_recursion() will disable preemption, * which is required since some of the ops may be dynamically * allocated, they must be freed after a synchronize_rcu(). */ bit = trace_test_and_set_recursion(ip, parent_ip, TRACE_LIST_START); if (bit < 0) return; ftrace_ops_list是一个struct ftrace_ops类型的链表，每个ftrace_ops代表一个ftrace函数跟踪类型，默认是遍历ftrace_ops_list，调用ops函数 do_for_each_ftrace_op(op, ftrace_ops_list) { /* Stub functions don\\\'t need to be called nor tested */ if (op->flags & FTRACE_OPS_FL_STUB) continue; /* * Check the following for each ops before calling their func: * if RCU flag is set, then rcu_is_watching() must be true * Otherwise test if the ip matches the ops filter * * If any of the above fails then the op->func() is not executed. */ if ((!(op->flags & FTRACE_OPS_FL_RCU) || rcu_is_watching()) && ftrace_ops_test(op, ip, regs)) { if (FTRACE_WARN_ON(!op->func)) { pr_warn(\\\"op=%p %pS\\\\n\\\", op, op); goto out; } op->func(ip, parent_ip, op, fregs); } } while_for_each_ftrace_op(op); out: trace_clear_recursion(bit); } ftrace_ops数据结构： struct ftrace_ops { ftrace_func_t func; //替换ftrace_stub的函数 struct ftrace_ops __rcu *next; unsigned long flags; void *private; ftrace_func_t saved_func; #ifdef CONFIG_DYNAMIC_FTRACE struct ftrace_ops_hash local_hash; struct ftrace_ops_hash *func_hash; struct ftrace_ops_hash old_hash; unsigned long trampoline; unsigned long trampoline_size; struct list_head list; ftrace_ops_func_t ops_func; #endif }; 默认的ftrace_ops为： struct ftrace_ops global_ops = { .func = ftrace_stub, .local_hash.notrace_hash = EMPTY_HASH, .local_hash.filter_hash = EMPTY_HASH, INIT_OPS_HASH(global_ops) .flags = FTRACE_OPS_FL_INITIALIZED | FTRACE_OPS_FL_PID, }; 如果头结点是 ftrace_list_end，表示没有ops注册，代表无需函数跟踪，将 func 设置为空的跟踪函数 ftrace_stub。如果头结点的下一个结点是 ftrace_list_end，表示只有一个ops注册，且当此ops不是动态ops（比如：livepatch），且架构支持传递 ops 到跟踪函数，则将 func 设置为 ops->func，否则设置为 ftrace_ops_list_func() 如果链表中有不止一个的 ops 注册，则将 func 设置为 ftrace_ops_list_func() ftrace_ops_list_func() 为区别于全局跟踪函数，我们在此称之为列表跟踪函数。此函数在 vmlinux 链接时，指向 arch_ftrace_ops_list_func，执行时会遍历 ftrace_ops_list，结合 ops->func_hash 来判断是否需要对当前 ip 执行 ops->func，也就是说 ftrace_ops_list_func() 不仅会调用多个 ops 的跟踪函数，也会保证 ops 跟踪函数处理的函数是应该被跟踪的。本实验是将func 设置到 ftrace_trace_function()。当前设置 function tracer 的流程中，ops 就是 global_ops 且 ftrace_ops_list 链表只有 global_ops 这一个注册。注册ftrace_function int register_ftrace_function(struct ftrace_ops *ops) { ret = register_ftrace_function_nolock(ops); ret = ftrace_startup(ops, 0); } int ftrace_startup(struct ftrace_ops *ops, int command) { int ret; if (unlikely(ftrace_disabled)) return -ENODEV; ret = __register_ftrace_function(ops); if (ret) return ret; ①添加ops（global_ops）到全局ops链表ftrace_ops_list中，并设置全局跟踪函数ftrace_trace_function为ops->func。 ftrace_start_up++; ops->flags |= FTRACE_OPS_FL_ENABLED | FTRACE_OPS_FL_ADDING; ②根据ops->func_hash->filter_hash更新入口函数表中每个函数记录rec的ip modfy位。 ret = ftrace_hash_ipmodify_enable(ops); if (ret < 0) { /* Rollback registration process */ __unregister_ftrace_function(ops); ftrace_start_up--; ops->flags &= ~FTRACE_OPS_FL_ENABLED; if (ops->flags & FTRACE_OPS_FL_DYNAMIC) ftrace_trampoline_free(ops); return ret; } if (ftrace_hash_rec_enable(ops, 1)) command |= FTRACE_UPDATE_CALLS; ③判断是否有函数入口需要更新，如果需要更新则command设置为FTRACE_UPDATE_CALLS。这里的入口函数就是替换nop指令。入口函数的替换和跟踪函数替换是不一样的，注意区分。 ftrace_startup_enable(command); ④判断报错的跟踪函数saved_ftrace_func与当前跟踪函数ftrace_trace_function是否相同，如果不同则表示需要更新跟踪函数，command设置为FTRADE_UPDATE_TRACE_FUNC，之后执行ftrace_run_update_code进行更新。 /* * If ftrace is in an undefined state, we just remove ops from list * to prevent the NULL pointer, instead of totally rolling it back and * free trampoline, because those actions could cause further damage. */ if (unlikely(ftrace_disabled)) { __unregister_ftrace_function(ops); return -ENODEV; } ops->flags &= ~FTRACE_OPS_FL_ADDING; return 0; } int __register_ftrace_function(struct ftrace_ops *ops) { add_ftrace_ops(&ftrace_ops_list, ops); ① 将目标trace添加到全局链表ftrace_ops_list中。 /* Always save the function, and reset at unregistering */ ops->saved_func = ops->func; ② 保存当前要trace的函数。 if (ftrace_pids_enabled(ops)) ops->func = ftrace_pid_func; ③ 如果设置的特定pid 进行trace，将trace函数更新为 ftrace_pid_func，即ftrace_stub更新为ftrace_pid_func ftrace_update_trampoline(ops); if (ftrace_enabled) update_ftrace_function(); ④ 将当前的trace函数赋值到ftrace_trace_function中，表示当前要修改的目标函数。 return 0; } 函数过滤处理如果设置了过滤函数不需要进行跟踪，需对相应的桩点实例dyn_ftrace设置标记，FTRACE_FL_DISABLED标志表示不需要更新入口函数，FTRACE_FL_IPMODIFY表示需要更新。需要过滤的函数，统一记录在ops->func_hash->filter_hash表中。 static int __ftrace_hash_update_ipmodify(struct ftrace_ops *ops, struct ftrace_hash *old_hash, struct ftrace_hash *new_hash) { /* Update rec->flags */ do_for_each_ftrace_rec(pg, rec) { 遍历所有插桩点，是否需要过滤掉，打上对应的标记。 } while_for_each_ftrace_rec(); } ftrace modify all code 如果要更新入口函数，标志设置为 FTRACE_UPDATE_CALLS；如果要更新跟踪函数，标志设置为FTRACE_UPDATE_TRACE_FUNC。如果使能了ftrace gragh，则标志设置为FTRACE_START_FUNC_RET。 void ftrace_modify_all_code(int command) { int update = command & FTRACE_UPDATE_TRACE_FUNC; int mod_flags = 0; int err = 0; if (update) { err = update_ftrace_func(ftrace_ops_list_func); if (FTRACE_WARN_ON(err)) return; } ① 先将跟踪函数替换为ftrace_ops_list_func。 if (command & FTRACE_UPDATE_CALLS) ftrace_replace_code(mod_flags | FTRACE_MODIFY_ENABLE_FL); else if (command & FTRACE_DISABLE_CALLS) ftrace_replace_code(mod_flags); ②更新入口函数 if (update && ftrace_trace_function != ftrace_ops_list_func) { function_trace_op = set_function_trace_op; smp_wmb(); /* If irqs are disabled, we are in stop machine */ if (!irqs_disabled()) smp_call_function(ftrace_sync_ipi, NULL, 1); err = update_ftrace_func(ftrace_trace_function); if (FTRACE_WARN_ON(err)) return; } ③ 判断ftrace_trace_function != ftrace_ops_list_func，则重新将跟踪函数更新为ftrace_trace_function 。 if (command & FTRACE_START_FUNC_RET) err = ftrace_enable_ftrace_graph_caller(); else if (command & FTRACE_STOP_FUNC_RET) err = ftrace_disable_ftrace_graph_caller(); 更新跟踪函数 static int update_ftrace_func(ftrace_func_t func) ftrace_update_ftrace_func(ftrace_func_t func) int ret = __ftrace_modify_call((unsigned long)&ftrace_call, (unsigned long)func, true, true); if (!ret) { ret = __ftrace_modify_call((unsigned long)&ftrace_regs_call, (unsigned long)func, true, true); static int __ftrace_modify_call(unsigned long hook_pos, unsigned long target, bool enable, bool ra) { unsigned int call[2]; unsigned int nops[2] = {NOP4, NOP4}; if (ra) make_call_ra(hook_pos, target, call); else make_call_t0(hook_pos, target, call); 计算跟踪函数的指令，修改地址ftrace_call或ftrace_regs_call处的跳转地址，默认是ftrace_stub，即完成了ftrace_call标签处的跳转替换，跟踪函数替换完成。 /* Replace the auipc-jalr pair at once. Return -EPERM on write error. */ if (patch_text_nosync ((void *)hook_pos, enable ? call : nops, MCOUNT_INSN_SIZE)) return -EPERM; patch_text_nosync函数在3.4.4章节有简述，这里就不再重复。 return 0; } 更新入口函数 void __weak ftrace_replace_code(int mod_flags) { struct dyn_ftrace *rec; struct ftrace_page *pg; bool enable = mod_flags & FTRACE_MODIFY_ENABLE_FL; int schedulable = mod_flags & FTRACE_MODIFY_MAY_SLEEP_FL; int failed; if (unlikely(ftrace_disabled)) return; ① 遍历每个入口函数的，获取对应的dyn_ftrace实例。 do_for_each_ftrace_rec(pg, rec) { ② 如果函数入口不需要更新，则循环继续（判断是否设置FTRACE_FL_DISABLED） if (skip_record(rec)) continue; failed = __ftrace_replace_code(rec, enable); ③ 将函数入口地址替换（默认为nop） if (failed) { ftrace_bug(failed, rec); /* Stop processing */ return; } if (schedulable) cond_resched(); } while_for_each_ftrace_rec(); } static int __ftrace_replace_code(struct dyn_ftrace *rec, bool enable) { unsigned long ftrace_old_addr; unsigned long ftrace_addr; int ret; ftrace_addr = ftrace_get_addr_new(rec); ① 获取要在函数入口要插桩点的函数地址。返回结果有有以下几种情况： - FTRACE_FL_DIRECT：在direct_functions中获取（用户自定义？） - FTRACE_FL_TRAMP：跳板函数？ - FTRACE_FL_REGS：FTRACE_REGS_ADDR，默认为ftrace_regs_caller - 默认： FTRACE_ADDR ，默认为ftrace_caller /* This needs to be done before we call ftrace_update_record */ ftrace_old_addr = ftrace_get_addr_curr(rec); ret = ftrace_update_record(rec, enable); ftrace_bug_type = FTRACE_BUG_UNKNOWN; switch (ret) { case FTRACE_UPDATE_IGNORE: return 0; case FTRACE_UPDATE_MAKE_CALL: ftrace_bug_type = FTRACE_BUG_CALL; return ftrace_make_call(rec, ftrace_addr); case FTRACE_UPDATE_MAKE_NOP: ftrace_bug_type = FTRACE_BUG_NOP; return ftrace_make_nop(NULL, rec, ftrace_old_addr); case FTRACE_UPDATE_MODIFY_CALL: ftrace_bug_type = FTRACE_BUG_UPDATE; return ftrace_modify_call(rec, ftrace_old_addr, ftrace_addr); } ② 将入口函数的桩点替换为指定标签函数。 return -1; /* unknown ftrace bug */ } 总结本章节，我们重点分析了function tracer使能后的实现过程，分析了如何将函数入口替换为ftrace_caller，分析了ftrace_caller中ftrace_call标签处如何被替换成跳转到ftrace_trace_function。整个ftrace动态过程主要实现了以下功能 - 能够指定内核函数入口进行指令替换，使其跳转到ftrace_caller。 - 能够对跟踪函数进行更新，使指定的跟踪函数能够被调用。在动态函数的跟踪分析过程中，register_ftrace_function和ftrace_set_filter这两个函数至关重要，这两个函数使能function tracer的时候会调用并触发指令替换和跟踪函数更新动作。同时这两个函数也是接口，用户可以通过调用这两个函数实现自己的tracer。 /** * register_ftrace_function - register a function for profiling * @ops: ops structure that holds the function for profiling. * * Register a function to be called by all functions in the * kernel. * * Note: @ops->func and all the functions it calls must be labeled * with \\\"notrace\\\", otherwise it will go into a * recursive loop. */ int register_ftrace_function(struct ftrace_ops *ops) { int ret; lock_direct_mutex(); ret = prepare_direct_functions_for_ipmodify(ops); if (ret < 0) goto out_unlock; ret = register_ftrace_function_nolock(ops); out_unlock: unlock_direct_mutex(); return ret; } EXPORT_SYMBOL_GPL(register_ftrace_function); register_ftrace_function是一个通用的注册函数，传递的参数struct ftrace_ops *ops即想要在函数入口插入跟踪的函数，无论是function tracer、irqsoff、fprobes、trace_event等函数都是调用该函数进行注册插桩，也可以自定义自己想要插桩的函数。从原理上来讲，使能了-fpatchable-function-entry编译参数后，入口函数处就占了坑位，默认是先用nop指令填充，那么可以在运行阶段想换成啥就换成啥。

🕒 2024-08-28 📁 性能工具 👤 laumy 🔥 732 热度
ftrace的使用

tracer irqsoff 当关闭中断时，CPU就无法响应中断了（NMI和SMI除外），无法响应外部事件做出反应。这会阻止定时器触发或鼠标中断触发，导致系统延迟。 irqsoff跟踪器跟踪中断被禁用的时间，当达到新的最大延迟时，跟踪器会保存导致该延迟点的跟踪，一边每次达到新的最大值，旧的保存的跟踪会被丢弃，新的跟踪会被保存。如果要重置最大值，用echo 0写到tracing_max_latency中。 # echo 0 > options/function-trace # echo irqsoff > current_tracer # echo 1 > tracing_on # echo 0 > tracing_max_latency # ls -ltr [...] # echo 0 > tracing_on # cat trace 上图示例可以最大延迟为3603us，在default_idle_call和__do_softirq中禁用了中断，主要看=> started at:default_idle_call和=> ended at: __do_softirq。表示关中断的开始函数和开中断的函数。上面示例中，将funciton-trace关掉了，没有启用此tracer过程的函数跟踪。如果设置function-trace，就会有很多的打印，会将此过程中的函数执行trace打印出来。echo 1 > options/function-trace。如果想要以函数图调用的方式打印，那么with echo 1 > options/display-graph。有时候cat trace是空的，可能设置的追踪阈值太长，可以修改短一点。 echo 5 > tracing_thresh # 设置阈值为 5μs function function为函数跟踪器，可以从调试文件系统启动函数跟踪器，echo function > current_tracer。 # echo function > current_tracer # echo 1 > tracing_on # usleep 1 # echo 0 > tracing_on # cat trace 需要注意的是，function tracer使用环形缓冲区来存储上述数据，最新数据可能会覆盖最旧的数据，有时使用echo 来停止跟踪器是不够的，因为跟踪可能会覆盖您想要记录的数据。因此最好直接从程序中禁用跟踪，允许您在到达你感兴趣的部分时停止跟踪，如果要从C程序禁用跟踪，可以使用类似下面代码； int trace_fd; [...] int main(int argc, char *argv[]) { [...] trace_fd = open(tracing_file("tracing_on"), O_WRONLY); [...] if (condition_hit()) { write(trace_fd, "0", 1); } [...] } 单个线程的跟踪， # cat set_ftrace_pid no pid # echo 3111 > set_ftrace_pid # cat set_ftrace_pid 3111 # echo function > current_tracer # cat trace | head 如果想要trace一个函数在启动运行时，可以使用下面的示例程序。 #include <stdio.h> #include <stdlib.h> #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h> #include <unistd.h> #include <string.h> #define _STR(x) #x #define STR(x) _STR(x) #define MAX_PATH 256 const char *find_tracefs(void) { static char tracefs[MAX_PATH+1]; static int tracefs_found; char type[100]; FILE *fp; if (tracefs_found) return tracefs; if ((fp = fopen("/proc/mounts","r")) == NULL) { perror("/proc/mounts"); return NULL; } while (fscanf(fp, "%*s %" STR(MAX_PATH) "s %99s %*s %*d %*d\\n", tracefs, type) == 2) { if (strcmp(type, "tracefs") == 0) break; } fclose(fp); if (strcmp(type, "tracefs") != 0) { fprintf(stderr, "tracefs not mounted"); return NULL; } strcat(tracefs, "/tracing/"); tracefs_found = 1; return tracefs; } const char *tracing_file(const char *file_name) { static char trace_file[MAX_PATH+1]; snprintf(trace_file, MAX_PATH, "%s/%s", find_tracefs(), file_name); return trace_file; } int main (int argc, char **argv) { if (argc < 1) exit(-1); if (fork() > 0) { int fd, ffd; char line[64]; int s; ffd = open(tracing_file("current_tracer"), O_WRONLY); if (ffd < 0) exit(-1); write(ffd, "nop", 3); fd = open(tracing_file("set_ftrace_pid"), O_WRONLY); s = sprintf(line, "%d\\n", getpid()); write(fd, line, s); write(ffd, "function", 8); close(fd); close(ffd); execvp(argv[1], argv+1); } return 0; } 当然也可以使用简单的脚步来实现 Or this simple script! :: #!/bin/bash tracefs=`sed -ne \'s/^tracefs \$.*\$ tracefs.*/\\1/p\' /proc/mounts` echo 0 > $tracefs/tracing_on echo $$ > $tracefs/set_ftrace_pid echo function > $tracefs/current_tracer echo 1 > $tracefs/tracing_on exec \"$@\" function graph tracer function graph tracer与function tracer类似，不同之处在于它会在函数进入和退出时对其进行探测，这是通过每个task_struct中使用动态分配的返回地址堆栈来实现的。在函数进入时，跟踪器会覆盖跟踪每个函数的返回地址以设置自定义探测器，因此原始返回地址存储在task_struct中的返回地址堆栈中。在函数两端进行探测可实现特殊功能，例如：测量函数的执行时间，拥有可靠调用堆栈来绘制函数的调用图。这种跟踪器在以下几种情况很有用：找到奇怪内核行为的原因，详细了解任何区域发生的情况。遇到奇怪的延迟，但很难找到根源。快速找到特定函数的调用路径。窥视正在运行的内核并查看发生了什么。有几列是可以动态启用和禁止的。 - cpu number是默认会启动函数执行的cpu编号，有时候最好只跟踪一个cpu（tracing_cpu_mask），否则在cpu跟踪是，会看到无须的函数调用。隐藏cpu: echo nofuncgraph-cpu > trace_options。 - duration表示函数执行的时间，会显示在函数结束括号行上。如果是叶函数，则显示在当前函数的同一行。如果要关掉，则echo nofuncgraph-duration > trace_options。如果函数的开头不在跟踪缓冲区，则函数名称可以显示到函数的右括号后面，可以echo funcgraph-tail > trace_options进行使能。 dynamic ftrace 如果使能了CONFIG_DYNAMIC_FTRACE，则在禁用函数跟踪时，系统将几乎不产生任何开销。其工作原理是使能了gcc的-pg参数会自动在内核的函数开头插桩mcount函数（与架构有关系，gcc 4.6版本开始，x86架构添加mfentry，它调用“fentry”而不是“mcount”）。在编译时，每个C文件对象通过recordmcount程序（位于脚本目录）运行，该程序将解析C对象的ELF标头，查找.text部分中调用mcount的所有位置。 NOTE:注意的是并非所有的section都被跟踪，可以通过notrace或其他办法来不让其跟踪，并且不会跟踪所有的内联函数，可以cat available_filter_functions节点来查看可以跟踪那些函数。创建一个“__mcount_loc”的段（section），该段中记录了所有包含在.text中对mcount调用点的引用位置。最后__mcount_loc在链接时统一链接到一个__mcount_loc中。具体的过程如上图所示，在系统启动时，初始化SMP之前，动态ftrace代码会扫描此表并将所有位置更新为替换为nop指令，同时还会记录位置，这些位置被添加到available_filter_functions表中。在模块加载和执行之前进行处理，卸载模块时，它还会从ftrace函数列表中删除其函数。在启动动态跟踪后，修改函数跟踪点的过程取决于具体的arch。修改函数跟踪点的方法时要修改位置放置一个断点，同步所有的CPU。接着修改其指令，同步给所有的CPU再把断点移除。通过这样动态的方式，可以做到有选择的跟踪指定函数，其他不想跟踪的函数就的位置执行的是nop指令，不至于影响性能。内核中使用两个文件用于启动和禁用指定的函数跟踪分别是set_ftrace_filter和set_ftrace_notrace。可以通过available_filter_functions来查看跟踪的函数。 # echo sys_nanosleep hrtimer_interrupt > set_ftrace_filter # echo function > current_tracer # echo 1 > tracing_on # usleep 1 # echo 0 > tracing_on # cat trace 设置set_ftrace_filter可以使用通配符匹配，示例如下： ``<match>*`` ：匹配<match>开头的函数 ``*<match>``：匹配<match>结尾的函数 ``*<match>*``：匹配其中包含<match>的函数 ``<match1>*<match2>``：匹配<match1>开头并以<match2>结尾的函数设置set_ftrace_filter接口支持过滤命令，格式为\:\:\ -mod: 启用每个模块的功能过滤,如只需要ext3模块中的write*功能 echo \'write*:mod:ext3\' > set_ftrace_filter -traceon/traceoff: 指定函数打开和关闭时跟踪，参数确定跟踪系统打开和关闭的次数，如果为指定，则没有限制，例如在前5此遇到错误时禁止跟踪 echo \'__schedule_bug:traceoff:5\' > set_ftrace_filter dynamic ftrace with function graph tracer 上面解释了function tracer和function graph tracer，但有些特殊功能只在function graph tracer中可用。如果跟踪一个函数及其子函数，只需要函数将其名称写到set_graph_function中。 echo function_graph > current_tracer echo __do_fault > set_graph_function echo 1 > tracing_on ... echo 0 > tracing_on other ftrace有一个总开关，/proc/sys/kernel/ftrace_enabled，向其写0或1表示关闭和使能，默认是开启的状态。更多细节参考：Documentation/trace/ftrace.rst。 events使用 sched_switch sched_switch是静态Tracepoint事件追踪，下面是示例 echo 1 > /sys//kernel/debug/tracing/events/sched/sched_switch/enable # 使能sched_switch echo 'prev_pid == 1162 || next_pid == 1244' > /sys/kernel/debug/tracing/events/sched/sched_switch/filter #设置sched_switch 事件的过滤条件，使得只有当进程ID为1162的进程 #切换为进程ID为1244的进程时，才会记录这个事件，否则打印太多了 echo "" > /sys/kernel/debug/tracing/trace # 清除trace buffer echo 1 > /sys/kernel/debug/tracing/tracing_on # 开始tracing cat /sys/kernel/debug/tracing/trace # 查看结果运行结果如下： # tracer: nop # # nop latency trace v1.1.5 on 5.15.147 # -------------------------------------------------------------------- # latency: 0 us, #15/15, CPU#1 | (M:preempt VP:0, KP:0, SP:0 HP:0 #P:4) # ----------------- # | task: -0 (uid:0 nice:0 policy:0 rt_prio:0) # ----------------- # # _------=> CPU# # / _-----=> irqs-off # | / _----=> need-resched # || / _---=> hardirq/softirq # ||| / _--=> preempt-depth # |||| / _-=> migrate-disable # ||||| / delay # cmd pid |||||| time | caller # \ / |||||| \ | / <idle>-0 0d..2. 95713us$: sched_switch: prev_comm=swapper/0 prev_pid=0 prev_prio=120 prev_state=R ==> next_comm=wpa_supplicant next_pid=1244 next_prio=120 <idle>-0 0d..2. 10104901us$: sched_switch: prev_comm=swapper/0 prev_pid=0 prev_prio=120 prev_state=R ==> next_comm=wpa_supplicant next_pid=1244 next_prio=120 <idle>-0 0d..2. 20114087us$: sched_switch: prev_comm=swapper/0 prev_pid=0 prev_prio=120 prev_state=R ==> next_comm=wpa_supplicant next_pid=1244 next_prio=120 wifi_dae-1162 2d..2. 25998599us!: sched_switch: prev_comm=wifi_daemon prev_pid=1162 prev_prio=120 prev_state=R+ ==> next_comm=sugov:0 next_pid=88 next_prio=-1 wifi_dae-1162 2d..2. 25999269us!: sched_switch: prev_comm=wifi_daemon prev_pid=1162 prev_prio=120 prev_state=R ==> next_comm=sugov:0 next_pid=88 next_prio=-1 wifi_dae-1162 2d..2. 25999412us!: sched_switch: prev_comm=wifi_daemon prev_pid=1162 prev_prio=120 prev_state=R+ ==> next_comm=sugov:0 next_pid=88 next_prio=-1 <idle>-0 0d..2. 25999584us!: sched_switch: prev_comm=swapper/0 prev_pid=0 prev_prio=120 prev_state=R ==> next_comm=wpa_supplicant next_pid=1244 next_prio=120 wifi_dae-1162 3d..2. 26000075us*: sched_switch: prev_comm=wifi_daemon prev_pid=1162 prev_prio=120 prev_state=S ==> next_comm=swapper/3 next_pid=0 next_prio=120 <idle>-0 0d..2. 26012127us!: sched_switch: prev_comm=swapper/0 prev_pid=0 prev_prio=120 prev_state=R ==> next_comm=wpa_supplicant next_pid=1244 next_prio=120 <idle>-0 0d..2. 26012552us!: sched_switch: prev_comm=swapper/0 prev_pid=0 prev_prio=120 prev_state=R ==> next_comm=wpa_supplicant next_pid=1244 next_prio=120 logread-495 0d..2. 26013054us$: sched_switch: prev_comm=logread prev_pid=495 prev_prio=120 prev_state=S ==> next_comm=wpa_supplicant next_pid=1244 next_prio=120 rcu_pree-14 3d..2. 27564266us#: sched_switch: prev_comm=rcu_preempt prev_pid=14 prev_prio=120 prev_state=I ==> next_comm=wpa_supplicant next_pid=1244 next_prio=120 <...>-1163 3d..2. 27567664us!: sched_switch: prev_comm=wifi_daemon prev_pid=1163 prev_prio=120 prev_state=S ==> next_comm=wpa_supplicant next_pid=1244 next_prio=120 <...>-1163 3d..2. 27568473us$: sched_switch: prev_comm=wifi_daemon prev_pid=1163 prev_prio=120 prev_state=S ==> next_comm=wpa_supplicant next_pid=1244 next_prio=120 <idle>-0 3d..2. 30116102us : sched_switch: prev_comm=swapper/3 prev_pid=0 prev_prio=120 prev_state=R ==> next_comm=wpa_supplicant next_pid=1244 next_prio=120 从上面的打印结果可以看到，只会打印下一个调度进程为next_pid=1244或者上一个调度进程为prev_pid=1162的两个进程。 irq echo 1 > /sys/kernel/debug/tracing/events/irq/irq_handler_entry/enable echo 1 > /sys/kernel/debug/tracing/events/irq/irq_handler_exit/enable # 使能最终中断的进入和退出追踪。 echo "irq == 62" > /sys/kernel/debug/tracing/events/irq/irq_handler_exit/filter echo "irq == 62" > /sys/kernel/debug/tracing/events/irq/irq_handler_entry/filter #设置irq的过滤，要过滤的中断号可以通过cat /proc/interrupts获取。 echo "" > /sys/kernel/debug/tracing/trace # 清除trace buffer echo 1 > /sys/kernel/debug/tracing/tracing_on # 开始tracing cat /sys/kernel/debug/tracing/trace # 查看结果 /sys/kernel/debug/tracing# cat trace # tracer: nop # # entries-in-buffer/entries-written: 354/354 #P:4 # # _-----=> irqs-off # / _----=> need-resched # | / _---=> hardirq/softirq # || / _--=> preempt-depth # ||| / _-=> migrate-disable # |||| / delay # TASK-PID CPU# ||||| TIMESTAMP FUNCTION # | | | ||||| | | sugov:0-86 [000] d.h.. 1306.666839: irq_handler_entry: irq=62 name=rwnx_hostwake_irq sugov:0-86 [000] d.h.. 1306.666847: irq_handler_exit: irq=62 ret=handled sugov:0-86 [000] d.h.. 1306.667226: irq_handler_entry: irq=62 name=rwnx_hostwake_irq sugov:0-86 [000] d.h.. 1306.667229: irq_handler_exit: irq=62 ret=handled <idle>-0 [000] d.h1. 1306.673856: irq_handler_entry: irq=62 name=rwnx_hostwake_irq <idle>-0 [000] d.h1. 1306.673864: irq_handler_exit: irq=62 ret=handled <idle>-0 [000] d.h1. 1306.722395: irq_handler_entry: irq=62 name=rwnx_hostwake_irq <idle>-0 [000] d.h1. 1306.722414: irq_handler_exit: irq=62 ret=handled <idle>-0 [000] dNh1. 1306.722680: irq_handler_entry: irq=62 name=rwnx_hostwake_irq <idle>-0 [000] dNh1. 1306.722688: irq_handler_exit: irq=62 ret=handled sugov:0-86 [000] d.h1. 1306.722773: irq_handler_entry: irq=62 name=rwnx_hostwake_irq sugov:0-86 [000] d.h1. 1306.722778: irq_handler_exit: irq=62 ret=handled <idle>-0 [000] d.h1. 1306.730310: irq_handler_entry: irq=62 name=rwnx_hostwake_irq <idle>-0 [000] d.h1. 1306.730313: irq_handler_exit: irq=62 ret=handled sugov:0-86 [000] d.h1. 1306.734280: irq_handler_entry: irq=62 name=rwnx_hostwake_irq sugov:0-86 [000] d.h1. 1306.734292: irq_handler_exit: irq=62 ret=handled <idle>-0 [000] d.h1. 1306.734520: irq_handler_entry: irq=62 name=rwnx_hostwake_irq <idle>-0 [000] d.h1. 1306.734526: irq_handler_exit: irq=62 ret=handled <idle>-0 [000] d.h1. 1306.734717: irq_handler_entry: irq=62 name=rwnx_hostwake_irq <idle>-0 [000] d.h1. 1306.734722: irq_handler_exit: irq=62 ret=handled <idle>-0 [000] dNh1. 1306.757440: irq_handler_entry: irq=62 name=rwnx_hostwake_irq <idle>-0 [000] dNh1. 1306.757453: irq_handler_exit: irq=62 ret=handled sugov:0-86 [000] d.h1. 1306.757530: irq_handler_entry: irq=62 name=rwnx_hostwake_irq sugov:0-86 [000] d.h1. 1306.757536: irq_handler_exit: irq=62 ret=handled <idle>-0 [000] d.h1. 1306.792327: irq_handler_entry: irq=62 name=rwnx_hostwake_irq <idle>-0 [000] d.h1. 1306.792340: irq_handler_exit: irq=62 ret=handled <idle>-0 [000] dNh1. 1306.792629: irq_handler_entry: irq=62 name=rwnx_hostwake_irq <idle>-0 [000] dNh1. 1306.792636: irq_handler_exit: irq=62 ret=handled sugov:0-86 [000] d.h.. 1306.792811: irq_handler_entry: irq=62 name=rwnx_hostwake_irq sugov:0-86 [000] d.h.. 1306.792817: irq_handler_exit: irq=62 ret=handled <idle>-0 [000] d.h1. 1306.821387: irq_handler_entry: irq=62 name=rwnx_hostwake_irq <idle>-0 [000] d.h1. 1306.821407: irq_handler_exit: irq=62 ret=handled sugov:0-86 [000] d.h.. 1306.821615: irq_handler_entry: irq=62 name=rwnx_hostwake_irq sugov:0-86 [000] d.h.. 1306.821620: irq_handler_exit: irq=62 ret=handled irqsoff和events/irq有什么区别？ irqsoff是统计中断关闭时间，而events/irq是主要用于记录中断处理的活动，包括进入中断、退出中断等等。小结 # 启动sched_switch追踪可以有一下3种方式。 echo sched:sched_switch >> /sys/kernel/debug/tracing/set_event echo sched_switch >> /sys/kernel/debug/tracing/set_event echo 1 > /sys/kernel/debug/tracing/events/sched/sched_switch/enable # 可以通过cat set_event来查看追踪的event cat /sys/kernel/debug/tracing/set_event # 也可以通过设置set_event_pid来过滤进程 echo 1244 > /sys/kernel/debug/tracing/set_event_pid # 可以cat trace_pipe来实时观察追踪信息 cat /sys/kernel/debug/tracing/trace_pipe #如果要清空设置的过滤,写0, echo 0 > /events/irq/irq_handler_exit/filter 总结： tracer有function/graph等追踪器，没有设置过滤的话就是全局的。而event是在特定函数出入口统计跟踪，一般系统有内置的模块比如irq，sched_switch等。 tracing_on是总开关，通过使能1或0来开关。 trace是ftrace跟踪系统的主输出文件，用于记录所有的跟踪事件，但是会保留历史记录信息，不需要的话需要echo "" > trace 清空。trace_pipe是一个实时跟踪输出文件，而不会保存历史数据，它提供了实时的数据流。 event和tracer可以同时使用。

🕒 2024-08-27 📁 性能工具 👤 laumy 🔥 785 热度
ftrace-概述

ftrace是一个内部跟踪器，用于帮助开发人员查找内核正在发生的事情，它可用于调试或分析用户空间之外发生的延迟和性能问题。ftrace从名称上看是function trace，函数跟踪器，但它实际并不限制函数跟踪，而是多个不同跟踪实用程序的框架。延迟跟踪可以检查在禁用和启用中断之间发生的情况，以及抢占和从唤醒任务到实际运行任务的时间。 ftrace最常见的用途之一是用于事件跟踪(event tracing)，整个内核有数百个静态事件点，可以通过tracefs文件系统启用这些事件点，以查看内核某些部分正在发生的事件。 ftrace使用tracefs文件系统来保存控制文件以及显示输出的文件，当tracefs配置到内核中时，将创建目录/sys/kernel/tracing。要挂载此目录，可以将其添加到/etc/fstab文件中。 tracefs /sys/kernel/tracing tracefs defaults 0 0 当然也可以进行命令挂载：mount -t tracefs nodev /sys/kernel/tracing。需要注意的是在4.1内核之前，所有的ftrace跟踪控制文件都在debugfs文件系统中，该文件系统位于/sys/kernel/debug/tracing，因此为了向后兼容，在挂载debugfs文件系统时，tracefs就会自动挂载/sys/kernel/debug/tracing。挂载tracefs后，可以访问ftrace的控制和输出文件，以下是关键文件节点： current_tracer:用于设置或显示当前配置的跟踪器，更改当前跟踪器会清除环形缓冲区内容。 available_tracers:保存已经编译到内核中的不同类型跟踪器，该类型用于配置上面的current_tracer。 tracing_on:用于设置是否开启对跟踪环形缓冲区的写入（0/1启停），需要注意的时即使禁止环形缓冲区的写入，跟踪开销可能仍然在发生。每次写current_tracer后，tracing_on会默认设置0。 events:这个目录包含了内核中可用的跟踪事件列表。它定义了各种内核事件，比如 sched_switch（任务调度切换）、irq_handler_entry（中断处理入口）等。通过这些事件，可以捕获并分析内核的各种活动。 trace_options:用于控制trace输出文件的显示数据量，还可以更改堆栈跟踪、时间戳等。 options:这是一个目录，包含每个可用跟踪选项的文件，也可以通过具有选项名称的 set_ftrace_filter:用于dynamic ftrace，代码被动态修改（text重写）以禁用对函数分析器（mcount）的调用，这样就可以在几乎不影响性能的情况下配置跟踪。设置函数跟踪过滤后，跟踪器就只会跟踪设置的函数。 set_ftrace_notrace：与set_ftrace_filter相反，添加的函数不会被跟踪。 set_ftrace_pid:函数跟踪器只跟踪PID列再次文件中的线程。如果设置了”function-fork”选项，则当PID列在此文件中的任务分叉时，子任务的PID将自动添加到此文件中，并且函数跟踪器也会跟踪子任务。 set_event_pid:让event只跟踪PID列在此文件的任务。 set_graph_function:此文件中列出的函数将导致函数图跟踪器仅跟踪这些函数及其调用的函数。需要注意的时set_ftrace_filter/set_ftrace_notrace仍然会影响正在跟踪的函数，即function tracer和graph tracer叠加。 available_filter_functions:列出ftrace已处理并可以跟踪的函数。即上面set_ftrace_filter/set_graph_function设置的函数名称。 tracers Tracer是 Ftrace 预设的多种内核行为追踪模块，通过不同 tracer 可观测特定类型的内核事件。列出当前常用的跟踪器，可以通过cat available_tracers获取当前支持那些跟踪器。 function:函数调用跟踪器，用于跟踪所有内核函数。 function_graph:与函数跟踪器类似，不同之处在于函数跟踪器在函数入口出探测函数，而函数图跟踪器在函数入口和出口处跟踪进行跟踪，然后，它能够绘制类似C代码的函数调用图。 blk:块跟踪器，blktrace应用程序使用的跟踪器。 hwlat:硬件延迟跟踪器，用于检测硬件是否产生任何延迟。 irqsoff:跟踪禁用中断区域并保存最大延迟最长的跟踪。当中断被禁止时，系统无法响应外部事件，比如鼠标和键盘，时钟也无法产生tick中断，这也意味着系统响应延迟，irqsoff这个tracer能够跟踪并记录内核中哪些函数禁止了中断，对于其中中断禁止时间最长的，irqsoff将在Log文件中第一行标记出来，从而使开发者可以迅速定位造成响应延迟的罪魁祸首 preemptoff:与irqsoff类型，但跟踪并记录禁用抢占的时间量。 preemptirqsoff:与irqsoff和preemptoff类似，但跟踪并记录禁用irqs或抢占的最大时间。 wakeup:跟踪并记录在唤醒最高优先级任务后对其进展调度所需要的最大延迟。 wakeup_rt:跟踪并记录仅RT任务所需要的最大延迟。 wakeup_dl:跟踪并记录SCHED_DEADLINE任务所需的最大延迟。 nop:不跟踪任务内容。以下是使用tracer的典型示例，输出格式如下上面是一个function tracer的输出示例，打印的标题包含跟踪器的名称。在本例中，tracer是function，entries-in-buffer表示缓冲区的事件数，entries-written是写入的数目，差异是由于缓冲区填满而丢失的数据。标题解释了event内容。第一行内容表示Task 为bash，PID为1977，运作在CPU0上，运行的时间戳格式为\.\，表示进入该函数的时间。被跟踪的函数是sys_close，以及调用此函数的父函数为system_call_fastpath。下面是irqsoff tracer的示例，输出格式如下：上图表示tracer是irqsoff，给出了irqsoff latency trace的版本为v1.1.5运行待3.8.0内核上。跟踪的条目和总数均为4个，最大的延时是259us。VP,KP,SP,HP始终为0用于后续使用，#P表示当前在线的CPU数量。task是延迟发生时正在运行的进程。导致延迟最大的启动和停止函数（分别禁用和启动中断的函数）是__lock_task_sighand（关中断）和_raw_spin_unlock_irqrestore（开中断）。下面接着再来解释一条trace的内容。 cmd:跟踪中进程的名称 pid：该进程的pid CPU#:进程正在运行的CPU irq-soff: “d”表示中断被禁用，否则为 “.”。如果架构不支持irq标志变量，这里为打印“X”。 need-resched: “N”表示TIF_NEED_RESCHED和“PREEMPT_NEED_RESCHED”都设置了。“n”仅设置了TIF_NEED_RESCHED，“p”仅设置了PREEMPT_NEED_RESCHED。否则为“.”。 hardirq/softirq:当前是否发生硬件中断、软件中断，“Z”表示NMI发生在hardirq中，“z”表示NMI正在运行，“H”硬件中断发生在软中断中。“h”硬件中断正在运行，“s”软解中断正在运行。“.”正常的上下文。 preempt-depth: 被抢占的调用深度。 time:相对于tracer开始的时间戳，这里是相对时间，表示tracer过程中中断被关闭的时间。 delay:延时的标号，“$”表示大于1S，“@”表示大于100ms，“*”表示大于10ms，“#”表示大于1000us，“!”表示大于100us，“+”表示大于10us，“ ”表示小于等于10us。 events events 是 ftrace 的另一种跟踪机制，允许跟踪内核中的特定事件。Events是基于内核静态埋点（Tracepoints）或动态探针（Kprobes）的细粒度追踪机制。这些事件可以是内核中发生的各种操作，如任务调度、系统调用、内存分配、中断等。与tracer不同，events跟踪的是特定的内核事件。可以通过cat available_events或者ll /sys/kernel/tracing/events查看当前打开了哪些events。 root:/sys/kernel/debug/tracing/events# ls alarmtimer ipi rpm asoc irq rtc block jbd2 sched bridge kmem scsi cfg80211 kyber signal cfg802154 l2tp skb cgroup mac80211 smbus clk mac802154 sock cma migrate spi compaction mmap sunxi_ccu cpuhp mmap_lock sunxi_uart dev mmc sunxi_udc devfreq module swiotlb dma_fence napi syscalls enable neigh task error_report net tcp ext4 netlink thermal fib oom thermal_power_allocator fib6 page_isolation timer filelock pagemap tipc filemap percpu udp ftrace power v4l2 gadget preemptirq vb2 gpio printk vmscan header_event pwm vsock header_page qdisc workqueue i2c raw_syscalls writeback initcall rcu xdp iomap regmap iommu regulator trace_options trace_options文件用户控制trace输出的打印内容，或者控制trace。要查看可用的内容，可以使用cat trace_opstions。如果要禁用其中一个选项，可以在选项的加上前缀no，如要禁用print-parent，echo noprint-parent > trace_options。如果要重新使能去掉no前缀再写入即可。 print-parent:在珊瑚跟踪过程中，显示调用函数以及被跟踪的函数。 sys-offset:不仅显示函数名称，还要显示函数中的偏移量。 sym-addr:显示函数地址以及函数名称。 irq-info:显示中断、抢占技术、调度的数据。 function-trace:默认启用，表示延迟跟踪器将启用函数跟踪，当禁用此选项是，延迟跟踪器不会跟踪函数。 function-fork:跟踪任务的子任务。 display-gragh：设置后，延迟跟踪器（irqsoff，wakeup等）将使用函数图跟踪而不是函数跟踪。 stacktrace：设置后，在记录任何跟踪事件都会记录堆栈跟踪。由于function_graph tracer输出略不同，因此它有自己的选项来控制显示内容，在options/目录下。 funcgraph-cpu:设置后，将显示跟踪发生的CPU编号。 funcgragh-irqs:禁用后，不会跟踪中断内部发生的函数。

🕒 2024-08-27 📁 性能工具 👤 laumy 🔥 651 热度
内存测量

系统占用内存 free 旧版本free $ free total used free shared buffers cached Mem: 65960636 63933576 2027060 73392 1602076 32628548 -/+ buffers/cache: 29702952 36257684 Swap: 0 0 0 （1）第一行Mem：内存的使用情况，默认单位是Kb。 - total:系统总共的内存。total=used+free - used：已经被使用的内存。 - free：剩余还没有被使用的物理内存。 - shared: 多个进程共享的内存。 - buffers:块设备所占的缓存页，包括直接读写块设备、文件系统元数据（metadata）、SupperBlock所使用的缓存页等。 - cached：普通文件数据所占用的缓存页。（2）第二行-/+ buffers/cache:物理内存缓存统计。 -buffers/cache(used列):29702952，被程序正在使用的缓存内存，等于used-buffers-cached +buffers/cache(used列):36257684，还可以挪用使用的缓存内存，等于free+buffers+cached （3）第三行：交换区空间的统计。新版本free root@TinaLinux:/# free total used free shared buff/cache available Mem: 2022788 98876 1818264 84 105648 1898696 Swap: 0 0 0 第一行Mem：内存的使用情况，默认单位是Kb。第二行Swap：交换空间的使用情况。 - total:系统总共的内存。total = used+free+buff/cache - used：已经被使用的内存。 - free：剩余还没有被使用的物理内存。 - shared: 多个进程共享的内存。 - buff:块设备所占的缓存页。 - cache：普通文件数据所占用的缓存页。 - available：还可以被应用程序使用的物理内存大小。available=free+可回收利用的buff/cache 在系统中available才是系统真正可还能申请到的内存。 /proc/meminfo # cat /proc/meminfo MemTotal: 2022788 kB MemFree: 1818376 kB MemAvailable: 1898700 kB Buffers: 436 kB Cached: 20352 kB SwapCached: 0 kB Active: 5104 kB Inactive: 31432 kB Active(anon): 116 kB Inactive(anon): 15716 kB Active(file): 4988 kB Inactive(file): 15716 kB Unevictable: 0 kB Mlocked: 0 kB SwapTotal: 0 kB SwapFree: 0 kB Dirty: 0 kB Writeback: 0 kB AnonPages: 15792 kB Mapped: 5156 kB Shmem: 84 kB KReclaimable: 84752 kB Slab: 148640 kB SReclaimable: 84752 kB SUnreclaim: 63888 kB KernelStack: 2144 kB PageTables: 620 kB NFS_Unstable: 0 kB Bounce: 0 kB WritebackTmp: 0 kB CommitLimit: 1011392 kB Committed_AS: 93972 kB VmallocTotal: 259653632 kB VmallocUsed: 4820 kB VmallocChunk: 0 kB Percpu: 768 kB CmaTotal: 65536 kB CmaFree: 48764 kB MemTotal: 系统当前可用物理内存总量，除去了reserved的内存。 MemFree:系统当前剩余空闲物理内存。 MemAvailable:系统中可使用的物理内存，包含了可以回收的内存。 Buffers:块设备缓存。 Cached:普通文件页的缓存。 SwapCached:系统有多少匿名页面曾经被交换到交换区过。 Active:活动的匿名页面和活动的文件映射页面内存，=Active(anon)+Active(file)。 Inactive:不活跃的匿名页面和文件页面。=Inactive(anon)+Inactive(file)。 Active(anon):活跃的匿名页面。 Inactive(anon): 不活跃的匿名页面。 Active(file):活跃的文件页面。 Inactive(file): 不活跃的文件页面。 Unevictable: 不能回收的页面（LRU_UNEVICTABLE）。 Mlocked: 不能被交换（swap）出去的页面。 SwapTotal:交换分区的大小。 SwapFree: 交换分区空闲的大小。 Dirty: 脏页的数量。 Writeback: 正在回写的也买你数量。 AnonPages:有反向映射的页面，通常是匿名页面并且被映射到用户空间的。 Mapped:所有映射到用户地址空间的内容缓存页面。 Shmem: 共享内存（tmpfs事先的shmem/devtmpfs等）。 KReclaimable: 内核可回收内存，包括可回收的slab和其他可回收的内核页面。 Slab:所有slab页面，包括可回收和不可回收。 SReclaimable:可回收的slab页面。 SUnreclaim: 不可回收的slab页面。 KernelStack: 所有进程的内核栈总大小。 PageTables: 用于存储页表的页面数量。 NFS_Unstable:NFS中，发给服务器但是还没有写入磁盘的页面。 Bounce: 针对智能访问低端内存的设备，当DMA分配到高端内存时，分配要给低端临时buffer用于复制处理。 WritebackTmp:回写过程中使用的临时缓存 CommitLimit: Committed_AS: VmallocTotal:vmalloc区域总大小。 VmallocUsed:vmalloc区域使用的内存大小。 VmallocChunk:vmalloc可用的连续最大块大小。 Percpu:percpu机制使用的页面。 CmaTotal:CMA机制使用的总内存。 CmaFree:CMA机制剩余空用内存。 1.Linux内核的内存用了多少？Slab+VmallocUsed+PageTables+KernelStack+Bounce。 2.用户内存用了多少内存？（1）LRU视角：active+inactive+unevicatable = 5104+31432+0= 36536KB （2）缓存视角（swapcache=0）：Cached+Buffers +AnonPages= 20352+436+15792=36580KB，cached和buffers内存并不是都使用完成了，这种统计方式往往大于实际使用内存。观察内存泄露的时候重点看：Memfree、Slab的变化。 /proc/zoneinfo zoneinfo显示了当前系统所有内存管理区的信息，可以分为以下几个部分。 1.当前内存节点的内存统计信息 Node 0，zone DMA：第0个节点，DMA区域的总体信息。 2.当前内存管理区的总信息节点0，zone区域。 - pages free:内存管理区中空闲的页面数量。 - min：警戒水位的页面数量。 - low：低水位的页面数量。 - high：高水位的页面数量。 - spanned:内存管理区总的页面数量，包含空洞。 - present：内存管理区总的可用页面数量，不包含空洞。 - managed：被伙伴系统管理的页面数量。 - protection：管理区中预留内存的页面数量。分别是预留给DMA,DMA32,NORMAL,HIGH。 3.每个CPU内存分配器的信息per_cpu_pageset pagesets:表示每个CPU内存分配器中每个CPU缓存的页面信息。 - count: 在该CPU内存区域上已经分配的页面数量。 - high:页面回收的空闲页面数量的水位线，如果cpu上的页面数量超过该值，需要退还给zone。 - batch:如果缓存中没有页面了，一次性中zone中获取batch个页面。。 - vm stats threshold: 某个进程虚拟内存使用量超过该阈值时，内核将在/proc/PID/smaps打印进程的详细内存映射信息。 zoneinfo节点重点可以看一下各区域min/low/high的水位值，可以通过/proc/sys/vm/min_free_kbytes调整min值。用户进程占用内存 /proc/pid/status # cat /proc/1151/status Name: wifi_daemon Umask: 0022 State: S (sleeping) Tgid: 1151 Ngid: 0 Pid: 1151 PPid: 1 TracerPid: 0 Uid: 0 0 0 0 Gid: 0 0 0 0 FDSize: 64 Groups: VmPeak: 239316 kB VmSize: 239316 kB VmLck: 0 kB VmPin: 0 kB VmHWM: 1172 kB VmRSS: 1172 kB RssAnon: 532 kB RssFile: 640 kB RssShmem: 0 kB VmData: 33540 kB VmStk: 132 kB VmExe: 36 kB VmLib: 7560 kB VmPTE: 76 kB VmSwap: 0 kB CoreDumping: 0 THP_enabled: 0 Threads: 3 SigQ: 0/7639 SigPnd: 0000000000000000 ShdPnd: 0000000000000000 SigBlk: 0000000000000000 SigIgn: 0000000000001000 SigCgt: 0000000180000000 CapInh: 0000000000000000 CapPrm: 000001ffffffffff CapEff: 000001ffffffffff CapBnd: 000001ffffffffff CapAmb: 0000000000000000 NoNewPrivs: 0 Seccomp: 0 Seccomp_filters: 0 Speculation_Store_Bypass: not vulnerable SpeculationIndirectBranch: unknown Cpus_allowed: ff Cpus_allowed_list: 0-7 voluntary_ctxt_switches: 12 nonvoluntary_ctxt_switches: 0 VmPeak: 进程使用的最大虚拟内存，通常等于进程内存描述符号mm->total_vm。 VmSize:进程使用的虚拟内存，等于mm->total_vm。 VmLck:记录所有用户或内核锁定的内存，主要是mlock的内存，系统回收内存时，不会优先回收这部分内存。 VmPin:进程固定在内存的虚拟地址空间大小，记录了无法被换出到磁盘的页面数量。 VmHWM:进程使用的最大物理内存，包括进程使用的匿名页面、文件映射页面以及共享内存页面大小总和。 VmRSS: 进程使用的最大物理内存，通常等于VmHMM。 RssAnon: 进程使用的匿名页面大小。 RssFile: 进程使用的文件页面大小。 RssShmem: 进程使用的共享内存页面大小。 VmData:进程私有数据段占用内存大小。 VmStk:进程用户栈占用内存大小。 VmExe:进程代码段占用大小。 VmLib:进程共享库占用大小。 VmPTE:进程占用的页表大小。 VmSwap: 进程使用巨型页的大小。 /proc/pid/smaps 7fac964000-7fac9b8000 r-xp 00000000 b3:07 403 /lib/libwifimg-v2.0.so Size: 336 kB KernelPageSize: 4 kB MMUPageSize: 4 kB Rss: 240 kB Pss: 240 kB Shared_Clean: 0 kB Shared_Dirty: 0 kB Private_Clean: 240 kB Private_Dirty: 0 kB Referenced: 136 kB Anonymous: 0 kB LazyFree: 0 kB AnonHugePages: 0 kB ShmemPmdMapped: 0 kB FilePmdMapped: 0 kB Shared_Hugetlb: 0 kB Private_Hugetlb: 0 kB Swap: 0 kB SwapPss: 0 kB Locked: 0 kB THPeligible: 0 VmFlags: rd ex mr mw me 7fac964000-7fac9b8000 r-xp 00000000 b3:07 403 /lib/libwifimg-v2.0.so: 7fac964000-7fac9b8000虚拟内存段的开始和结束位置，表示一个VMA。 r-xp表示该VMA是可读、可执行、私有。00000000虚拟内存段其实地址对应映射文件中以页为单位的偏移量。 size:虚拟内存空间大小。不是实际物理内存的分配大小，对应的是VMA的内存大小，内存总是会延迟分配。 Rss:实际分配的内存，包括其他进程的共享内存Rss=Shared_Clean+Shared_Dirty+Private_Clean+Private_Dirty。 Pss:平摊计算后的实际物理内存使用。共享部分按比例均分+Private_xx部分。 Private_Dirty:进程独占的脏页面大小。 Private_Clean:进程独占干净页面大小。 USS:等于Private_Dirty+Private_Clean，通常用来表示进程独占的物理内存大小，去掉与其他共享内存部分。 Rss计算： cat /proc/pid/smaps | awk '/^Rss/ {sum += $2} END {print sum}' Pss计算 cat /proc/pid/smaps | awk '/^Pss/ {sum += $2} END {print sum}' Uss计算 cat /proc/pid/smaps | awk '/^Pss/ {sum += $2} END {print sum}' 进程1001： VSS=1+2+3 RSS=4+5+6 PSS=4/2+5+6 USS=5+6 看进程是否有内存泄露，可以优先看USS（Private_Dirty+Private_Clean）是否有增长。 pmap -x [pid] - Address：虚拟地址起始地址 - Kbytes：内存块占用虚拟内存大小，单位KB。 - PSS：进程使用的物理内存大小（贡献内存按比例分配的大小），单位KB。 - Dirty:脏内存大小，指进程修改过的页面大小，单位KB。 - Swap：被交换到磁盘上的内存大小，单位KB。 - Mode：显示内存段的权限属性。 - Mapping：显示内存段对应的文件或库名。 - Total：汇总内存区域的虚拟内存大小，单位KB。在linux物理内存中，每个页面有一个dirty的标志，如果该页面被改写了，我们称之位dirty page。总的来说，所有非dirty page的物理页面都可以被回收。进程中各个段的dirty page情况。内核占用内存 /proc/meminfo 内核占用内存：Slab+VmallocUsed+PageTables+KernelStack+Bounce。 /proc/pagetypeinfo Page block order：10，支持最高阶order，这里是10，表示内存大小一块为2^10页面。 Pages per block：最高阶一块内存需要的页面数量，等于2^10=1024，即page block大小为1024*4K=4MB。 Unmovable order=1的数量有87个，也就是2^1个页面组成的内存块有87个。 Movable 454：表示在DMA区域，movable类型的page block的数量为454。（按照最高阶计算oder = 2^10的页面组成的内存块）。小结内存统计 #!/bin/sh while true; do #1计算系统总共内存及剩余内存 TOTAL_MEM=$(grep MemTotal /proc/meminfo | awk '{print $2}') FREE_MEM=$(grep MemFree /proc/meminfo | awk '{print $2}') #2计算内核占用内存 SLAB=$(grep Slab /proc/meminfo | awk '{print $2}') VMALLOC=$(grep VmallocUsed /proc/meminfo | awk '{print $2}') PAGETABLE=$(grep PageTables /proc/meminfo | awk '{print $2}') KERNELSTACK=$(grep KernelStack /proc/meminfo | awk '{print $2}') KERNEL_MEM=$((SLAB + VMALLOC + PAGETABLE + KERNELSTACK)) #3计算用户USS/PSS/RSS占用内存 CURRENT_USER=$(id -u) TOTAL_USS=0 TOTAL_PSS=0 TOTAL_RSS=0 for pid in $(ls /proc/ | grep "^[0-9]*$"); do if [ -f "/proc/${pid}/status" ]; then username=$(awk '/^Uid:/{printf $2}' "/proc/${pid}/status") if [ "$username" = "$CURRENT_USER" ]; then name=$(awk '/^Name:/{print $2}' "/proc/${pid}/status") mem1=0 mem1=$(cat /proc/${pid}/smaps | awk '/^Private/ {sum += $2} END {print sum}') mem2=0 mem2=$(cat /proc/${pid}/smaps | awk '/^Pss/ {sum += $2} END {print sum}') mem3=0 mem3=$(cat /proc/${pid}/smaps | awk '/^Rss/ {sum += $2} END {print sum}') fi TOTAL_USS=$((TOTAL_USS + mem1)) TOTAL_PSS=$((TOTAL_PSS + mem2)) TOTAL_RSS=$((TOTAL_RSS + mem3)) fi done echo "total_mem:$TOTAL_MEM KB, free_mem:$FREE_MEM KB" echo "slab:$SLAB KB, vmalloc:$VMALLOC KB, pagetable:$PAGETABLE KB, kernel_stack:$KERNELSTACK KB" echo "Kernel_mem:$KERNEL_MEM KB, USS:$TOTAL_USS KB, PSS:$TOTAL_PSS KB, RSS:$TOTAL_RSS KB" sleep 1 done 查询占用较多内存的进程 #!/bin/sh CURRENT_USER=$(id -u) TOTAL_USS=0 TOTAL_PSS=0 TOTAL_RSS=0 for pid in $(ls /proc/ | grep "^[0-9]*$"); do if [ -f "/proc/${pid}/status" ]; then username=$(awk '/^Uid:/{printf $2}' "/proc/${pid}/status") if [ "$username" = "$CURRENT_USER" ]; then name=$(awk '/^Name:/{print $2}' "/proc/${pid}/status") mem1=0 mem1=$(cat /proc/${pid}/smaps | awk '/^Private/ {sum += $2} END {print sum}') mem2=0 mem2=$(cat /proc/${pid}/smaps | awk '/^Pss/ {sum += $2} END {print sum}') mem3=0 mem3=$(cat /proc/${pid}/smaps | awk '/^Rss/ {sum += $2} END {print sum}') echo "$pid USS:$mem1, PSS:$mem2, RSS:$mem3" fi fi done 进程内存监测 #!/bin/sh count=0 pid=$1 while true; do let "count++" #计算USS,RSS,PSS mem1=$(cat /proc/$pid/smaps | awk '/^Private/ {sum += $2} END {print sum}') mem2=$(cat /proc/$pid/smaps | awk '/^Rss/ {sum += $2} END {print sum}') mem3=$(cat /proc/$pid/smaps | awk '/^Pss/ {sum += $2} END {print sum}') #计算Dirty，进程虚拟内存 Dirty=$(pmap -x $pid | awk '/^total/{dirty=$4}END{print dirty}') VSS=$(pmap -x $pid | awk '/^total/{VSS=$2}END{print VSS}') #计算系统使用内存，剩余内存 used=$(free | awk '/^Mem/{used=$3}END{print used}') free=$(free | awk '/^Mem/{free=$4}END{print free}') #计算堆空间虚拟内存 start_addr=$(cat /proc/$pid/maps | grep "\\[heap\\]" | awk '{print $1}' | cut -d'-' -f1) end_addr=$(cat /proc/$pid/maps | grep "\\[heap\\]" | awk '{print $1}' | cut -d'-' -f2) start_addr=$(printf "%d" "0x$start_addr") end_addr=$(printf "%d" "0x$end_addr") heap_vs=$(expr $end_addr - $start_addr) heap_vs=$(expr $heap_vs / 1024) #计算栈空间虚拟内存 start_addr=$(cat /proc/$pid/maps | grep "\\[stack\\]" | awk '{print $1}' | cut -d'-' -f1) end_addr=$(cat /proc/$pid/maps | grep "\\[stack\\]" | awk '{print $1}' | cut -d'-' -f2) start_addr=$(printf "%d" "0x$start_addr") end_addr=$(printf "%d" "0x$end_addr") stack_vs=$(expr $end_addr - $start_addr) stack_vs=$(expr $stack_vs / 1024) echo "count:$count,USS:$mem1 KB,VSS:$VSS KB, RSS:$mem2 KB,PSS:$mem3 KB,Dirty:$Dirty KB,heapvs:$heap_vs KB,stackvs:$stack_vs KB,used:$used KB,free:$free KB" sleep 1 done 测试代码，可配合脚本观察 int main(int argc, char *argv[]) { char *ptr1; char *ptr2; char *ptr3; char *ptr4; char *ptr5; struct mallinfo m_info; int size_kb = 65; getchar(); mallopt(M_TRIM_THRESHOLD, 1024 * 128); printf("malloc ptr[0] %dkb\\n", size_kb); ptr1 = (char *)malloc(1048 * size_kb); //memset(ptr1,24,1048 * size_kb); //memset不会导致USS增加,可能是由于值是一样的. //memset(ptr1,25,1048 * size_kb); 即使用两次memset设置不同值也不会增加USS for (int i = 0; i < 1048 * size_kb; i++) { ptr1[i] = i % 255; } getchar(); printf("malloc ptr[1] %dkb\\n", size_kb); ptr2 = (char *)malloc(1048 * size_kb); //memset(ptr2,25,1048 * size_kb); for (int i = 0; i < 1048 * size_kb; i++) { ptr2[i] = i % 255; } getchar(); printf("malloc ptr[2] %dkb\\n", size_kb); ptr3 = (char *)malloc(1048 * size_kb); //memset(ptr3,26,1048 * size_kb); for (int i = 0; i < 1048 * size_kb; i++) { ptr3[i] = i % 255; } getchar(); printf("malloc ptr[3] %dkb\\n", size_kb); ptr4 = (char *)malloc(1048 * size_kb); //memset(ptr4,27,1048 * size_kb); for (int i = 0; i < 1048 * size_kb; i++) { ptr4[i] = i % 255; } getchar(); printf("malloc ptr[4] %dkb\\n", size_kb); ptr5 = (char *)malloc(1048 * size_kb); //memset(ptr5,28,1048 * size_kb); for (int i = 0; i < 1048 * size_kb; i++) { ptr5[i] = i % 255; } getchar(); printf("free ptr[0] %dkb\\n", size_kb); free(ptr1); getchar(); printf("free ptr[1] %dkb\\n", size_kb); free(ptr2); getchar(); printf("free ptr[2] %dkb\\n", size_kb); free(ptr3); getchar(); printf("free ptr[3] %dkb\\n", size_kb); free(ptr4); getchar(); printf("free ptr[4] %dkb\\n", size_kb); free(ptr5); getchar(); return 0; } 操作系统对于小块内存的管理方式，如 Linux 内核中的延迟映射（Lazy Mapping）或零页复制（Zero Page COW）等技术所导致的。在某些情况下，操作系统可能会推迟实际的物理页面映射，直到首次访问相应的内存位置。这意味着即使您访问和修改了分配的内存，实际的物理页面映射可能仍然被推迟。即使使用memset修改了内存，但是可能也不会进行映射，通常可能只有在内存被修改为不同内容时，才会进行实际物理页面映射。而只有做了物理页面映射，进程的USS才会增加。

🕒 2023-08-27 📁 内存管理 👤 laumy 🔥 681 热度
进程虚拟内存

进程虚拟地址空间 Executable and Linkable Format（ELF）上图是可执行文件的内容结构图，由ELF header、program headers、各section、sections headers组成。 - ELF header：描述整个文件的基本属性，如文件版本号、目标机器型号、程序入口地址等。 - program headers：描述ELF文件该如何被操作系统映射到进程的虚拟地址空间，对于LOAD类型的Segment，每个Segment对应一个VMA。对于操作系统来说，并不关心各个section所包含的内容，它只关心跟装载相关的问题，最主要的是section的权限（可读，可写，可执行），所以对于相同类型的section，将会被合并成要给Segment进行映射，如init/text/rodata，这些都是可读可执行所以合并成一个Segment来描述。对于.o文件是没有program heades的。 - sections：代码经过编译之后，将会分类链接多个section，如init/text/data/bss。 - sections headers：用于ELF文件中各sections的。 ELF header 描述ELF header的结构体 typedef struct { unsigned char e_ident[EI_NIDENT]; /* 16 bytes */ Elf64_Half e_type; /* File type */ .... Elf64_Addr e_entry; /* Entry point virtual address */ Elf64_Off e_phoff; /* Prog headers file offset */ Elf64_Off e_shoff; /* Sec headers file offset */ .... Elf64_Half e_phentsize; /* Prog headers entry size */ Elf64_Half e_phnum; /* Prog headers entry count */ Elf64_Half e_shentsize; /* Sec headers entry size */ Elf64_Half e_shnum; /* Sec headers entry count */ Elf64_Half e_shstrndx; /* Sec string table index */ } Elf64_Ehdr; 可以通过readelf -h 来获取ELF的header信息。 $ readelf -h wifi_daemon ELF Header: Magic: 7f 45 4c 46 02 01 01 00 00 00 00 00 00 00 00 00 Class: ELF64 Data: 2's complement, little endian Version: 1 (current) OS/ABI: UNIX - System V ABI Version: 0 Type: EXEC (Executable file) Machine: AArch64 Version: 0x1 Entry point address: 0x401c00 Start of program headers: 64 (bytes into file) Start of section headers: 44568 (bytes into file) Flags: 0x0 Size of this header: 64 (bytes) Size of program headers: 56 (bytes) Number of program headers: 9 Size of section headers: 64 (bytes) Number of section headers: 29 Section header string table index: 28 program headers 描述Program header的结构体。 // Program header for ELF64. typedef struct { Elf64_Word p_type; // Type of segment Elf64_Word p_flags; // Segment flags Elf64_Off p_offset; // File offset where segment is located, in bytes Elf64_Addr p_vaddr; // Virtual address of beginning of segment Elf64_Addr p_paddr; // Physical addr of beginning of segment (OS-specific) Elf64_Xword p_filesz; // Num. of bytes in file image of segment (may be zero) Elf64_Xword p_memsz; // Num. of bytes in mem image of segment (may be zero) Elf64_Xword p_align; // Segment alignment constraint } Elf64_Phdr; 可以通过readelf -l []来获取ELF的pragram header信息。 $ readelf -l wifi_daemon Elf file type is EXEC (Executable file) Entry point 0x401c00 There are 9 program headers, starting at offset 64 Program Headers: Type Offset VirtAddr PhysAddr FileSiz MemSiz Flags Align PHDR 0x0000000000000040 0x0000000000400040 0x0000000000400040 0x00000000000001f8 0x00000000000001f8 R 8 INTERP 0x0000000000000238 0x0000000000400238 0x0000000000400238 0x000000000000001b 0x000000000000001b R 1 [Requesting program interpreter: /lib/ld-linux-aarch64.so.1] LOAD 0x0000000000000000 0x0000000000400000 0x0000000000400000 0x000000000000899c 0x000000000000899c R E 10000 LOAD 0x0000000000008b60 0x0000000000418b60 0x0000000000418b60 0x00000000000005b4 0x00000000000005e0 RW 10000 DYNAMIC 0x0000000000008b68 0x0000000000418b68 0x0000000000418b68 0x0000000000000270 0x0000000000000270 RW 8 NOTE 0x0000000000000254 0x0000000000400254 0x0000000000400254 0x0000000000000020 0x0000000000000020 R 4 GNU_EH_FRAME 0x0000000000008628 0x0000000000408628 0x0000000000408628 0x000000000000008c 0x000000000000008c R 4 GNU_STACK 0x0000000000000000 0x0000000000000000 0x0000000000000000 0x0000000000000000 0x0000000000000000 RW 10 GNU_RELRO 0x0000000000008b60 0x0000000000418b60 0x0000000000418b60 0x00000000000004a0 0x00000000000004a0 R 1 Section to Segment mapping: Segment Sections... 00 01 .interp 02 .interp .note.ABI-tag .hash .gnu.hash .dynsym .dynstr .gnu.version .gnu.version_r .rela.dyn .rela.plt .init .plt .text .fini .rodata .eh_frame_hdr .eh_frame 03 .init_array .fini_array .data.rel.ro .dynamic .got .data .bss 04 .dynamic 05 .note.ABI-tag 06 .eh_frame_hdr 07 08 .init_array .fini_array .data.rel.ro .dynamic .got 从上可以看出一共有9各segment，与前面elf header信息中的Number of program headers:9对应。这里我们重点关注02和03的segment即可，因为这两个segment的类型是LOAD类型，每个segment就对应一个VMA，与我们后面关于虚拟地址到物理地址的映射有着非常重要的联系。操作系统只关心段的权限（可读、可写、可执行），所以对于相同类型权限段可以合并到一起当作一个段来映射，所以通常的分类有一下三种： - 可读可执行：代码块为代表 - 可读可写：data块和BSS块为代表 - 只读：rodata块为代表 sections 下面是描述sections headers的结构体。 // Section header. struct Elf32_Shdr { Elf32_Word sh_name; // Section name (index into string table) Elf32_Word sh_type; // Section type (SHT_*) Elf32_Word sh_flags; // Section flags (SHF_*) Elf32_Addr sh_addr; // Address where section is to be loaded Elf32_Off sh_offset; // File offset of section data, in bytes Elf32_Word sh_size; // Size of section, in bytes Elf32_Word sh_link; // Section type-specific header table index link Elf32_Word sh_info; // Section type-specific extra information Elf32_Word sh_addralign; // Section address alignment Elf32_Word sh_entsize; // Size of records contained within the section }; 可以通过readelf -S []来读取ELF的section header的信息。 $ readelf -S wifi_daemon There are 29 section headers, starting at offset 0xae18: Section Headers: [Nr] Name Type Address Offset Size EntSize Flags Link Info Align [ 0] NULL 0000000000000000 00000000 0000000000000000 0000000000000000 0 0 0 [ 1] .interp PROGBITS 0000000000400238 00000238 000000000000001b 0000000000000000 A 0 0 1 [ 2] .note.ABI-tag NOTE 0000000000400254 00000254 0000000000000020 0000000000000000 A 0 0 4 [ 3] .hash HASH 0000000000400278 00000278 00000000000001a0 0000000000000004 A 5 0 8 [ 4] .gnu.hash GNU_HASH 0000000000400418 00000418 0000000000000024 0000000000000000 A 5 0 8 [ 5] .dynsym DYNSYM 0000000000400440 00000440 0000000000000618 0000000000000018 A 6 1 8 [ 6] .dynstr STRTAB 0000000000400a58 00000a58 00000000000003b8 0000000000000000 A 0 0 1 [ 7] .gnu.version VERSYM 0000000000400e10 00000e10 0000000000000082 0000000000000002 A 5 0 2 [ 8] .gnu.version_r VERNEED 0000000000400e98 00000e98 0000000000000060 0000000000000000 A 6 3 8 [ 9] .rela.dyn RELA 0000000000400ef8 00000ef8 0000000000000030 0000000000000018 A 5 0 8 [10] .rela.plt RELA 0000000000400f28 00000f28 00000000000005e8 0000000000000018 AI 5 22 8 [11] .init PROGBITS 0000000000401510 00001510 0000000000000018 0000000000000000 AX 0 0 4 [12] .plt PROGBITS 0000000000401530 00001530 0000000000000410 0000000000000000 AX 0 0 16 [13] .text PROGBITS 0000000000401940 00001940 00000000000038e4 0000000000000000 AX 0 0 64 [14] .fini PROGBITS 0000000000405224 00005224 0000000000000014 0000000000000000 AX 0 0 4 [15] .rodata PROGBITS 0000000000405238 00005238 00000000000033f0 0000000000000000 A 0 0 8 [16] .eh_frame_hdr PROGBITS 0000000000408628 00008628 000000000000008c 0000000000000000 A 0 0 4 [17] .eh_frame PROGBITS 00000000004086b8 000086b8 00000000000002e4 0000000000000000 A 0 0 8 [18] .init_array INIT_ARRAY 0000000000418b60 00008b60 0000000000000000 0000000000000008 WA 0 0 1 [19] .fini_array FINI_ARRAY 0000000000418b60 00008b60 0000000000000000 0000000000000008 WA 0 0 1 [20] .data.rel.ro PROGBITS 0000000000418b60 00008b60 0000000000000008 0000000000000000 WA 0 0 8 [21] .dynamic DYNAMIC 0000000000418b68 00008b68 0000000000000270 0000000000000010 WA 6 0 8 [22] .got PROGBITS 0000000000418dd8 00008dd8 0000000000000228 0000000000000008 WA 0 0 8 [23] .data PROGBITS 0000000000419000 00009000 0000000000000114 0000000000000000 WA 0 0 8 [24] .bss NOBITS 0000000000419118 00009114 0000000000000028 0000000000000000 WA 0 0 8 [25] .comment PROGBITS 0000000000000000 00009114 0000000000000033 0000000000000001 MS 0 0 1 [26] .symtab SYMTAB 0000000000000000 00009148 00000000000011a0 0000000000000018 27 103 8 [27] .strtab STRTAB 0000000000000000 0000a2e8 0000000000000a38 0000000000000000 0 0 1 [28] .shstrtab STRTAB 0000000000000000 0000ad20 00000000000000f4 0000000000000000 0 0 1 Key to Flags: W (write), A (alloc), X (execute), M (merge), S (strings) I (info), L (link order), G (group), T (TLS), E (exclude), x (unknown) O (extra OS processing required) o (OS specific), p (processor specific) 可以看出wifi_daemon中一共有29个section，与ELF header描述内容中的Number of section headers:29是匹配的。进程虚拟地址空间布局系统对虚拟地址空间进行布局，在2.3章节中描述了内核空间的划分，同样针对用户空间也有进行了划分。可以分为4类： - 栈：用于维护函数调用的上下文，栈在用户空间的最高地址处分配，地址是向下增长。 - 堆：用户程序动态分配内存的区域，当使用malloc分配内存时，虚拟地址空间将在这个范围，地址向上增长。 - MMAP:在栈和堆空间有一个MMAP区域，主要用于mmap系统调用的映射。包括文件映射（包含动态库、文件IO）和匿名映射。 - 可执行文件映像：存储可执行文件在内存的映像，装载器会将ELF内容读取或映射到这里。可执行文件映像可再进行分类，前面章节描述了，程序最终编译临界成各个sections，如text，data，bss等等，但对于系统来说关注的是加载的方式，如读写执行权限，因此可执行文件映像的分类是按照权限划分的。如上分为只读权限（对应init,text等section），读写权限（对应.data,bss等）。虚拟地址空间描述 Linux系统操作的是虚拟地址，访问实际内存需要将虚拟地址通过MMU查询页表，转化为物理地址。用户空间的虚拟地址可以按照如上图进行分为几个segment，每个segment都对应一个VMA。虚拟地址到物理地址的映射，是每个VMA到物理地址的映射。 VMA作为进程地址空间一块连续区域，使用struct vm_area_struct结构体进行描述。该结构体中描述了连续区域的起始地址和地址。 VMA之间通过双向链接连接在一起，在struct vm_area_struct中vm_next，vm_prev分别指向下一个VMA和上一个VMA，使用双向链表来组织VMA，便于进程虚拟地址对VMA的插入。 VMA同时又被加入到一棵红黑树中，在struct vm_area_struct中的vm_rb描述红黑树的节点，根节点在struct mm_struct mm_rb来描述，既然VMA通过链表串一起了，为什么再使用红黑树来组织，主要是使用红黑树能够加快进程搜索VMA的速度。 mm_struct数据结构中的pgd指向了该进程的页表页目录，每个进程都有自己一份独立的页表，当CPU第一次访问虚拟地址空间时，如果查询页表找不到对应的物理页，将会发生缺页异常，在缺页异常中，进行分配物理页面，当然如果页表没有创建，需要先申请物理页面创建页表，最后将物理页面填充到页表中，完成虚拟地址到物理地址的映射关系。上图中数据结构的层级关系struct task_struct->struct mm_struct->struct vm_area_struct。可以通过节点/proc/[pid]/maps来查看内存mappings，下面例子中每一行都表示一个VMA。可以man proc来查看各项参数意义。 address perms offset dev inode pathname 00400000-00452000 r-xp 00000000 08:02 173521 /usr/bin/dbus-daemon 00651000-00652000 r--p 00051000 08:02 173521 /usr/bin/dbus-daemon 00652000-00655000 rw-p 00052000 08:02 173521 /usr/bin/dbus-daemon 00e03000-00e24000 rw-p 00000000 00:00 0 [heap] ... 35b1800000-35b1820000 r-xp 00000000 08:02 135522 /usr/lib64/ld-2.15.so 35b1a1f000-35b1a20000 r--p 0001f000 08:02 135522 /usr/lib64/ld-2.15.so 35b1a20000-35b1a21000 rw-p 00020000 08:02 135522 /usr/lib64/ld-2.15.so 35b1a21000-35b1a22000 rw-p 00000000 00:00 0 35b1c00000-35b1dac000 r-xp 00000000 08:02 135870 /usr/lib64/libc-2.15.so 35b1dac000-35b1fac000 ---p 001ac000 08:02 135870 /usr/lib64/libc-2.15.so 35b1fac000-35b1fb0000 r--p 001ac000 08:02 135870 /usr/lib64/libc-2.15.so 35b1fb0000-35b1fb2000 rw-p 001b0000 08:02 135870 /usr/lib64/libc-2.15.so .. 7fffb2c0d000-7fffb2c2e000 rw-p 00000000 00:00 0 [stack] address: VMA对应的起始地址，对应struct vm_area_struct中的vm_start,vm_end。 perms：VMA的权限，r=read,w=write,x=execute,s=shared,p=private。s和p二选一，主要是判断当前的地址空间是进程私有，还是共享。 offset: 文件映射，表示此段虚拟内存起始地址在文件中以页为单位的偏移，匿名映射为0。 dev：所映射文件所属的设备号，匿名映射为0。 inode:映射文所属节点节点号，匿名映射为0。 pathname：文件映射，对应的就是映射的文件名。匿名映射，是此段虚拟内存在进程的角色，如heap，stack等。是否可以查看进程虚拟内存都被谁占用了，对应的VMA的大小是否有增大趋势，可以用于判断内存泄露？操作系统角度看可执行文件的装载运行从操作系统角度看，一个进程最关键的特征是它拥有独立的虚拟地址空间，这使得它跟别的进程有差别。下面来看一个程序被执行比较通用的情形，流程如下： - 创建一个独立的虚拟地址空间。 - 建立执行程序虚拟空间与可执行文件的映射关系。 - 将CPU的指令寄存器设置成可执行文件的入口函数，启动运行。 - 运行过程中，通过缺页异常将指令、数据装载进内存。（1）创建独立的虚拟地址空间系统访问使用的是虚拟地址，虚拟地址通过查询页表找到对应的物理内存，因此最开始是创建好虚拟地址空间，而创建虚拟地址空间实际上并不是创建空间直接建立好跟物理内存的连续，而是先创建映射函数所需要的相应数据结构，比如task_struct,mm_struct等。对应页表的创建，实际上只分配了一个页目录就可以了，不需要设置页的映射关系，等实际程序访问的时候通过缺页异常才进行设置。（2）建立执行程序虚拟空间与可执行文件的映射关系上一个步骤建立了虚拟地址空间，这一步所做的建立虚拟空间与可执行文件的映射关系，因为程序执行时发生缺页异常，系统会从物理内存分配一块内存，然后将缺页从磁盘读取到内存中，再设置缺页的虚拟页和物理页的映射关系，这样程序就可以运行了。因此，当程序发生缺页异常时，需要知道程序当前的页在磁盘的那一个位置。 Linux系统将进程虚拟地址空间分配成多个段，这个段叫做虚拟内存区域（VMA，Virtual Memory Area）。如系统创建进程后，会设置一个.text段（原则上应该时多个sections的合并）的VMA。（3）将CPU的指令寄存器设置可执行程序文件的入口函数这一步就是将ELF文件头中保存的入口地址赋值为PC，然后启动运行。（4）缺页异常在上述步骤执行后，实际可执行文件的指令和数据都还没有装入到内存中，操作系统只是通过该可执行文件头部信息建立起可执行文件和进程虚拟内存空间直接的映射关系，当程序启动运行时，执行相关的虚拟地址，当发现这虚拟地址对应的物理页面为空，将会发生缺页异常，缺页异常会分配一块内存，然后将可执行文件的指令和数据从磁盘加载到内存中，后续就可以直接访问内存进行读写访问执行了。 VMA的操作函数 VMA查找 VMA插入 VMA合并与拆分 malloc函数用户空间分配内存，不会每次申请都向linux内核做一个系统调用进行分配获取内存，而是在用户空间维持着一个缓冲池，这个缓冲池有自己的内存管理算法。当用户进行malloc时候，如果缓存池中有内存，就直接获取返回，如果缓存池中没有内存，就会下陷做系统调用到linux内核中获取内存。用户空间通过系统调用向内核获取内存时分为两种情况：当分配的内存小于M_MMAP_THRESHOLD阈值时会使用brk系统调用来扩展堆空间，当分配内存大于M_MMAP_THRESHOLD阈值时，会使用mmap进行映射分配。M_MMAP_THRESHOLD通常为128K，用户可以通过调用mallopt函数来修改该阈值。 malloc通过brk方式申请的内存，free释放内存时，并不会归还给系统，而是缓存到malloc内存池中，待下次使用。 malloc通过mmap申请到的内存，free释放内存时，会把内存归还给系统，内存得到真正释放。与malloc相关的函数 malloc系统调用流程待补充 mmap函数基本概念 mmap用于内存映射，将一段区域映射到自己的进程地址空间中。这段区域可以是文件页属性也可以是物理页属性，所以分为两种： - 文件映射：将文件映射到进程空间，文件存放在存储设备上（文件内容会以page cache缓存到物理内存中）。 - 匿名映射：没有文件对应的区域，内容在物理内存上。 mmap用于文件映射能提高读写效率，主要的差异点是常规的文件操作需要从磁盘到页缓存拷贝，然后内核空间到用户空间还有拷贝，有两次数据拷贝动作；而mmap操控文件，只需要从磁盘到用户主存一次拷贝，后续的读写直接对主存读写，相当于少了依次内核到用户空间的拷贝。 mmap针对进程是否可见，有分为两种： - 私有映射：数据源拷贝一次副本，进程之间互不影响。 - 共享映射：共享的进程都能看到。根据排列组合就有4中映射情况： - 私有匿名映射：可以用于分配大的内存，如malloc堆空间。 - 共享匿名隐射：可用于父子进程间通信，在内存文件系统中创建/dev/zero设备。 - 私有文件映射：常用于动态库的加载，如代码段，数据段等。 - 共享文件映射：非父子之间的进程间通信，文件读写等。实现原理 do_mmap函数调用流程待补充..... 举例mmap文件内存映射的实现过程，可以分为三个阶段： - 1.创建mmap虚拟地址空间VMA 如果mmap没有指定虚拟地址空间区域，则搜索一段空闲的连续虚拟地址空间，并分配一个vm_area_struct实例添加到红黑树和链表中。 - 2.建立VMA与文件物理地址（在磁盘那个位置）的映射关系通过虚拟文件系统inode模块定位到文件在磁盘的位置，建立VMA与文件的联系。 call_mmap->file->f_op->mmap？ - 3.访问文件对应的虚拟地址，引发缺页异常，将文件内容加载到内存前面阶段，并没有将文件的数据拷贝到内存中，真正的文件读取是进程发起读写操作时。进程在读货写操作访问映射的虚拟地址空间，通过查询页表，发现这一段地址并不再物理页面上，引发缺页异常，于是先从磁盘加载数据到内存中。后续堆文件的读写，直接就对对应的物理内存读写，当改变了内容，系统会自动将脏页面写回到磁盘上，当前也可以强行同步（msync）缺页异常 Linux系统有一个重要的特性就是用户“欺骗性”，如通过malloc申请了内存，但是实际上并没有分配内存给你，等实际访问内存的时候才会分配给你。用户很多重要的初始化操作只是针对虚拟内存的，虚拟内存实际对应的物理内存空间并没有分配，等实际需要访问的时候才会进行分配，因此当进程访问虚拟地址空间，发现虚拟地址空间没有与物理内存建立映射关系，处理器就会自动触发缺页异常（缺页中断）。下面是触发缺页异常的一些场景情形：缺页异常会执行到对应的中断函数，会跟实际的处理器架构有些关系，在实际中缺页异常最终会调用到do_page_fault（arch/arm64/mm/fault.c）函数，接下来将会从这个函数进行重点分析。 do_page_fault 匿名页面发生匿名页缺页异常，一般是①malloc/mmap分配进程地址空间区域，没有对应的物理内存将会触发分配。② 用户栈不够时，进行栈区的扩大处理。匿名页面分配时，会判断页面是否可写，如果是只读权限，那么系统会分配一个zero page。Zero page是一个特殊的物理页（实际没有使用物理内存空间），里面值全部为0，zero page针对匿名页场景专门进行的优化，主要是节省内存和对性能的一定优化。当malloc或者mmap分配内存仅仅是进程地址空间中的虚拟内存，如果用程序需要读这个malloc分配的虚拟内存，那么系统会返回全0的数据，因此linux内核不必为这种情况单独分配物理内存，而是使用系统零页，当程序需要写入这个页面时就会触发一个缺页异常，于是缺页异常变成写时复制的缺页异常。malloc分配虚拟内存，有以下几种情况。 - malloc分配后，直接读内存，这时缺页异常，分配到的是zero page，PTE的属性是read only。 - malloc分配后，先读后写，先读的时候缺页异常分配的是系统零页，再写再触发缺页异常触发写时复制。 - malloc分配后，直接写内存，触发缺页异常，使用alloc_zerod_user_highpage_movable分配新页面。文件页面文件页面异常分为读文件异常，写私有文件异常，写共享文件异常。总体的思路是没有分配物理页面，就进行分配物理页面，然后将内容从文件中拷贝到物理页面中，再建立好页表。 - 读文件异常：会尝试多映射数据周围的内容，因为周围数据再次被命中的概率比较高，这样减少缺页异常次数。 - 写私有文件：写私有文件会发生写时复制，会先分配一块物理页面cow_page，先将文件内容读取文件缓存页（page cache），然后再将其内容复制到cow_page中。 - 写共享文件：写共享文件不会发生写时复制，如果mkwrite函数不为空，将会通知进程页面变成可写。同时会将页设置为脏页。 swap页面换入当内存不足时，会把页面交换到磁盘swap分区中，当再次访问这块内存时会发生缺页异常，大致的流程就是搜索swap cache看页面是否在内存中，如果不在说明被交换出去了，那就需要从磁盘里面读出来，然后重新刷新页表，重新建立虚拟地址和物理页面的映射关系。页面写时复制COW 通常有以下两种情况会触发写时复制（Copy on write，CoW）。（1）父进程创建一个子进程，为了避免复制物理页，子进程和父进程以只读方式共享的匿名页和文件页，当有一个进程需要写只读页时，将会触发页错误异常，进程会拷贝一份新的物理页进行写。（2）进程创建了一个私有文件映射，当进行读访问时，缺页异常将文件内容读取到page cache中，并将以只读方式跟虚拟页建立映射关系。当进程再对改内容进行写时，缺页异常会触发写时复制，为page cache创建一个副本，新建一个虚拟页与复制的物理页建立联系。 vm_normal_page从页表项得到页帧号,如果返回值为NULL，表示这是一个特殊的页映射，这种特殊的页映射只有页帧号，没有对应实际的物理页，具体是什么用途，需要再研究？如上图，写时复制一共有四种情形。 - 写时复制：wp_page_copy - 可写且共享的特殊映射页面：wp_pfn_shared - 可写且共享的普通页面：wp_page_shared - KSM匿名页面（复用的页面）：wp_page_reuse 下面重点看看wp_page_copy的流程： 1.为什么会产生page fault？ Page fault是硬件提供的特性，由硬件触发，触发条件为CPU访问某线性地址时，如果没有找到对应可访问页表项，则由硬件直接触发page fault。 2.发生缺页的地址是否可以位于内核态地址空间？有可能，内核地址空间发生缺页异常仅可能在vmalloc区，线性映射区域对应的页表在内核初始化就已经建立好了，所以这部分内存对应的虚拟地址空间不可能产生page fault。 RMAP 反向映射是物理页面page可以寻找到其对应的虚拟地址空间VMA。当进行页面回收的时候，就需要利用反向映射技术找到其对应的进程VMA，然后将VMA与当前页面断开映射关系，即可进行回收当前页面。一个物理页面是可以同时被多个进程的虚拟页面映射的，但是一个虚拟页面只能映射一个物理页面。不同虚拟页面映射到同一物理页面的场景主要有子进程复制了父进程的VMA以及KSM机制的存在。关键数据结构基本原理映射到一个进程的反向映射 static vm_fault_t do_anonymous_page(struct vm_fault *vmf) { ...... __anon_vma_prepare(vma) page = alloc_zeroed_user_highpage_movable(vma, vmf->address); page_add_new_anon_rmap(page, vma, vmf->address, false); ...... } 以匿名映射为例说明：在缺页异常分配物理页时，会调用两个函数做RAMP相关的处理：__anon_vma_prepare，以及page_add_new_anon_rmap。创建过程：（1）分配页面的时候，为每个VMA创建一个AVC，然后再创建一个AV。（2）AVC->vma指向VMA，AVC->AV指向AV。（3）将AVC添加到VMA->anon_vma_chain链表中。（4）将AVC添加到AV->rb_root红黑树中。（5）将page->mapping指向av。反向映射过程：（1）通过page->mapping找到av。（2）在av->rb_root红黑树中从根节点进行遍历avc。（3）从avc中avc->vma找到vma。 void page_add_new_anon_rmap(struct page *page, struct vm_area_struct *vma, unsigned long address, bool compound) { int nr = compound ? thp_nr_pages(page) : 1; VM_BUG_ON_VMA(address < vma->vm_start || address >= vma->vm_end, vma); __SetPageSwapBacked(page); 设置page的标志位位PG_swapbacked，表示页面可以交换到磁盘。 if (compound) { VM_BUG_ON_PAGE(!PageTransHuge(page), page); /* increment count (starts at -1) */ atomic_set(compound_mapcount_ptr(page), 0); if (hpage_pincount_available(page)) atomic_set(compound_pincount_ptr(page), 0); __mod_lruvec_page_state(page, NR_ANON_THPS, nr); } else { /* Anon THP always mapped first with PMD */ VM_BUG_ON_PAGE(PageTransCompound(page), page); /* increment count (starts at -1) */ atomic_set(&page->_mapcount, 0); } __mod_lruvec_page_state(page, NR_ANON_MAPPED, nr); __page_set_anon_rmap(page, vma, address, 1); 设置页面位匿名映射 } static void __page_set_anon_rmap(struct page *page, struct vm_area_struct *vma, unsigned long address, int exclusive) { struct anon_vma *anon_vma = vma->anon_vma; anon_vma = (void *) anon_vma + PAGE_MAPPING_ANON; WRITE_ONCE(page->mapping, (struct address_space *) anon_vma); Page中的mapping指向anon_vma page->index = linear_page_index(vma, address); } 映射到多个进程的反向映射未发生写时复制父进程创建子进程时，如果没有还没有进行写操作只有读操作，为了节省内存，父子是共享物理页面的，只有当父子进程需要修改页面内容是，才会发生写时复制一份。 - 遍历父进程的VMA，子进程进行复制一份VMA。 - 每复制一份VMA，就创建一个AVC（下图的AVC_c），用于建立父子之间的桥梁联系。AVC_c（AVC_c->anon_vma）指向父AV并添加到父AV（AV->rb_root）红黑树中，同时AVC_c（AVC_c->vma）又指向子进程的VMA。这样在遍历父AV的红黑树，就能通过AVC_c找到子进程的VMA。 - 子进程创建属于自己的AVC/AV，并建立VMA,AVC,AV的联系。 - 子进程复制了父进程的pte，所以子进程的vma对应虚拟页面也父进程的虚拟页面同时指向物理页面page（二对一的情况）。物理页面page寻找虚拟页面过程： - 通过page->mapping找到父进程的AV，如上图AV0。 - 遍历AV0的红黑树，这里找到两个AVC节点，分别是父AVC0节点以及父子进程桥梁节点AVC_c。 - 通过父AVC0找到父进程的VMA0（AVC0->vma指向父VMA0）。 - 通过桥梁AVC_c找到子进程的VMA1（AVC_c-vma指向子VMA1）经过上述过程，物理页面page就可以找到与其对应的两个虚拟页面了。发生写时复制当父子进程的某一方出现写页面操作时，将会触发写时复制复制一份自己的物理页面，如上图，VMA1的pte指向复制的新物理页，同时物理页page->mapping指向AV1，这样copy page就能够通过AV1遍历其红黑树找到AVC1，进而通过AVC1找到VMA1。疑问：上图中AVC_c依旧在AV0的红黑树中，所以父进程的物理页page依旧通过AV0找到子进程的VMA1，但是子进程实际的pte已经指向copy page了，跟父进程的page没有关系了。网上看到的说法是，为了解决这个问题，即使page找到了对应的VMA，会检查vma的页表是否确实映射到了此页，进而解决这个问题，需要进一步研究代码求证。反向映射的应用反向映射主要的应用场景如下： - Kswapd回收页面是，需要断开映射到物理页面的PTE。 - 页面迁移时，需要断开所有映射到页面的PTE。

🕒 2023-08-26 📁 内存管理 👤 laumy 🔥 897 热度
DMA与cache一致性

无DMA时：设备与内存之间数据搬运需要依靠CPU来完成。有DMA时：DMA可以直接完成设备与内存直接的数据搬运，不需要cpu介入。 DMA的引入，优点是数据在内存和设备之间的搬运不需要CPU参与，这极大降低了CPU的负荷。但是也引入了新的问题，即cpu读取到的数据不一定是最新的，是因为中间cache的存在（如上图有DMA的情况），具体表现为当DMA修改从Device读取数据写入到memory后，即这块memory就被更新了，而此时cpu想要读取内存数据时，会先判断对应内存是否被cache命中，如果命中将直接读取cache中的数据内容不会经过内存，但是了cache中的数据并不是最新内存的数据，最新内存的数据已经被dma修改了。为了解决上述DMA与Cache不一致的问题，引入了两种dma机制来处理：一致性DMA（Consistent mapping）和流式DMA（Stream mapping）。（1）一致性DMA：可以认为是同步的(数据在搬运的时候就已经同步好了，没什么延时)，也就是DMA和CPU之间看到的物理内存是一样的。DMA操作和CPU之间的主要隔阂主要是CPU会先访问cache，而DMA只操作物理内存，不会动cache。早期一致性DMA的实现主要就是让DMA处理的这段内存uncache，这样cpu和dma对内存的操作就是一致的，cpu每次访问都不会经过cache了，直接访问内存，这样导致的问题就是降低效率（相当于没有cache了），以至后来随着SOC的发展，SOC可以用硬件来做到CPU和外设的cache一致，简单来说就是DMA在处理设备和物理内存的搬运是，硬件会同时把cache也更新了。一致性DMA通常在驱动初始化的时候进行mapping一块内存，在驱动卸载时再进行unmapping掉。（2）流式DMA:可以认为是异步的（数据搬运完成，需要进行刷一下cache相关的操作）。流式DMA没做一次DMA传输就需要mapping一次操作的内存，传输结束后进行unmapping。流式DMA之所以是异步，是因为等DMA搬运设备和内存的数据后，需要进行刷cache，刷cache需要根据方向来判断是clean cache还是invaild cache，当DMA将内存数据搬运到设备，则需要clean cache（清除cache数据，防止写回到内存）；当DMA将设备数据搬运到内存，则需要invalid cache（使cpu获取的cache数据无效）。与DMA相关的概念 DMA mapping 在早期，linux内核使用DMA操作的直接是物理地址，即利用phys_to_virt/virt_to_phys在CPU/memory/device直接处理DMA传输，这种代码不具备较好的移植性，随着硬件的发展，DMA地址和物理地址空间发生了变化，DMA地址空间已经不在等同于物理地址空间了，DMA地址空间到物理地址也需要转化，设备不能直接通过物理地址的方式访问物理内存，而需要通过IOMMU进行转化才能访问物理内存（Z->Y的变化，类似与虚拟地址到物理地址的变化）。从CPU角度看到的地址是虚拟地址，要访问对应的物理地址需要页表将虚拟地址与物理地址映射起来。从DMA角度看到的地址是总线地址，DMA的主要工作是负责设备与物理内存数据的搬运。当数据需要从物理内存搬运到设备时，物理地址B会通过host brigde转化为总线地址A，即可访问到设备。当数据从设备到物理内存搬运，总线地址Z会通过IOMMU转为为物理地址Y，即可访问物理内存。当CPU要访问设备时，虚拟地址与物理地址B通过ioremap进行映射，再通过host bridge访问到总线地址A，这样就建立起C->B->A的访问。 IOMMU 通过MMU的引入，Linux内存管理子系统解决了CPU内存离散的访问问题，对应用户空间，虚拟地址是连续的，但是对应的物理地址页帧确实可以离散的，对用户是屏蔽的，毫无感知的。但是在内核空间如外设（类DMA设备，不具MMU功能）想要访问内存，一般需要连续的物理内存地址，而连续的大块内存对长期允许的系统来说是奢侈的存在，因此引入了IOMMU，专门用于解决外设（DMA）无法访问连续物理内存的问题，对应外设角色来看，相当于也引入了虚拟地址的概念，IOMMU的用途就是将外设角度访问的虚拟地址转化为物理地址，这样即便物理内存不是连续的也没关系，虚拟地址连续就行，IOMMU会负责将外设访问的虚拟地址转化成物理地址，这样就解决了外设需要分配大块连续内存的问题，分配离散的物理内存也能满足要求了。 DMA传输方向 DMA_TO_DEVICE: 从内存到设备。 DMA_FROM_DEVICE:从设备到内存。 DMA_BIDIRECTIONAL：双向传输。流式DMA需要指定方向，一致性DMA具有隐式的方向属性为双向（DMA_BIDIRECTIONAL），在方向属性性，如果不明确方向，可以使用DMA_BIDIRECTIONAL，由平台来保证，但这样会引入性能的额外开销。 cache的工作模式 Write-back:回写模式，cache内容更改不需要每次写回内存，直到新的cache要刷新或软件要求刷新才会写回 Write-through:写直通，每次强制将内容写回内存主要时为了内存与cache相一致。 Prefectching:一些cache允许处理器对cache line进行预取，以响应读请求，读取的相邻内容同时被读处理。 DMA 访问系统内存的限制 DMA负责设备与物理内存的数据搬运，那么DMA是否对系统内存访问无限制？DMA访问的内存还是有一些特点和要求的。 - 伙伴系统分配的内存：如kmalloc、kmem_cache_alloc分配的接口可以直接用于DMA mapping接口的API。 - vmalloc/kmap: 由于分配的内存是不联系的，对于DMA来使用比较麻烦。 - 全局变量（数组）：一般可以用于DMA操作，但需要注意cacheline对齐，避免chache coherence问题。 DMA寻址范围限制不同的硬件平台，器DMA的寻址范围可能会有限制，如系统总线寻址是64bit，但是设备的DMA驱动访问的只有24bit，也就只能访问16M以下的系统内存，因此系统提供了接口，用于确定设备DMA寻址访问声明。 int dma_set_mask_and_coherent(struct device *dev, u64 mask); 上面的接口同时设置一致性和流式DMA寻址范围。如果一致性和流式DMA的地址掩码不同，还可以分别设定，如下： int dma_set_mask(struct device *dev, u64 mask); //用于流式DMA地址掩码 int dma_set_coherent_mask(struct device *dev, u64 mask); //用于一致性DMA地址掩码一致性DMA映射一致性DMA映射，也称为静态映射，与dma_map_xxx函数的差异就是会分配好物理内存并建立好映射，内存是长期存在。使用dma_alloc_coherent分配内存，一共有3种方式，①依次为先从设备驱动预留的内存进行分配，驱动预留的内存为在设备树中事先从物理内存预留了一块内存，该内存看起来不会加入到伙伴系统，专门留给驱动的dma分配。②如果驱动预留内存分配失败，则系统管理的物理内存中分配，这里会先从CMA中申请，CMA申请不到再从伙伴系统中获取。③最后从IOMMU的方式中分配内存。流式DMA映射与dma_alloc_coherent相比，dma_map_xxx该函数不会分配内存，只是建立好虚拟地址到DMA的映射关系（将分配好的内存转化成设备/DMA可访问的地址）。调用者必须保证虚地址的物理内存时连续的，且物理地址范围必须满足device中的dma_mask限制，dma_map_xxx调用等dma传输完成后，需要马上调用dma_unmap_xxx。dma_map_xxx有三个函数，区别主要表现在物理内存组织上，dma_map_sg将多个物理内存进行映射成一块连续内存，dma_map_single将一块连续物理内存进行映射；dma_map_page将一个物理页进行映射。一块联系内存映射dma_map_single 多个连续物理内存映射dma_ma_sg 一个物理页映射dma_map_page

🕒 2023-08-20 📁 内存管理 👤 laumy 🔥 2182 热度
连续内存分配器CMA

CMA,contiguous memory allocator是内存管理子系统的一个模块，其主要为了解决分配连续的物理内存。尽管有了伙伴系统、slab分配器以及相关的内存回收机制，但是对于一些驱动如camera、display等模块一下需要分配比较大的一块连续物理内存，随着系统运行久之后，碎片化严重，分配较大的连续内存会变得困难，而同时又不能直接预留一块大的连续内存只用于连续物理内存分配，因为当模块不使用这些内存时，内存就浪费掉了。因此为解决这个问题，提出了CMA机制，先预留一部分内存出来专门用于CMA内存，当驱动没有分配使用的时候，这些memory可以给伙伴系统供其他模块正常使用，当需要分配连续的大内存时，就回收回来形成物理地址连续的大块内存。上图可以看出CMA所处的位置，CMA向下是基于伙伴系统，向上是提供给DMA的封装接口，最终用户通过操作DMA buffer来分配和释放内存。CMA的区域有两种方式可以进行配置，分别是内核命令行参数配置和DTS设备树的方式配置。 struct cma { unsigned long base_pfn; 物理地址起始页帧号 unsigned long count; 区域的总页数 unsigned long *bitmap; 页的分配情况0表示free，1表示已分配。 unsigned int order_per_bit; 每次分配/释放对应的2^order 页，与bitmap的bit对应 struct mutex lock; #ifdef CONFIG_CMA_DEBUGFS struct hlist_head mem_head; spinlock_t mem_head_lock; #endif const char *name; }; extern struct cma cma_areas[MAX_CMA_AREAS]; extern unsigned cma_area_count; 内核使用struct cma结构体来描述cma区域，系统中可能有多个cma区域，使用一个全局的数组来描述所有的cma区域struct cma cma_areas[MAX_CMA_AREAS]; 如上图，cma_areas 0号区域，物理页号从0开始，每块内存由4页物理帧组成，目前只分配了第0块。 CMA区域创建创建CMA区域有两种方式：第一种方式是通过设备树DTS的配置方式，另一种是根据命令行或宏配置方式。设备数的方式创建 /* global autoconfigured region for contiguous allocations */ linux,cma { compatible = "shared-dma-pool"; reusable; size = <0x4000000>; alignment = <0x2000>; linux,cma-default; }; CMA的内存区域通过以上设备树信息来进行描述，对节点的解析在rmem_cma_setup函数中进行。 static int __init rmem_cma_setup(struct reserved_mem *rmem) { phys_addr_t align = PAGE_SIZE << max(MAX_ORDER - 1, pageblock_order); phys_addr_t mask = align - 1; unsigned long node = rmem->fdt_node; bool default_cma = of_get_flat_dt_prop(node, "linux,cma-default", NULL); （1）解析linux,cma-default节点。 struct cma *cma; int err; if (size_cmdline != -1 && default_cma) { pr_info("Reserved memory: bypass %s node, using cmdline CMA params instead\\n", rmem->name); return -EBUSY; } （2）CMA对应的reserved memory节点必须有reusable属性，不能有no-map属性。 reusable属性才能被伙伴系统回收使用。 if (!of_get_flat_dt_prop(node, "reusable", NULL) || of_get_flat_dt_prop(node, "no-map", NULL)) return -EINVAL; if ((rmem->base & mask) || (rmem->size & mask)) { pr_err("Reserved memory: incorrect alignment of CMA region\\n"); return -EINVAL; } （3）解析出来的参数进行初始化CMA区域 err = cma_init_reserved_mem(rmem->base, rmem->size, 0, rmem->name, &cma); if (err) { pr_err("Reserved memory: unable to setup CMA region\\n"); return err; } /* Architecture specific contiguous memory fixup. */ dma_contiguous_early_fixup(rmem->base, rmem->size); if (default_cma) dma_contiguous_default_area = cma; rmem->ops = &rmem_cma_ops; rmem->priv = cma; pr_info("Reserved memory: created CMA memory pool at %pa, size %ld MiB\\n", &rmem->base, (unsigned long)rmem->size / SZ_1M); return 0; } RESERVEDMEM_OF_DECLARE(cma, "shared-dma-pool", rmem_cma_setup); rmem_cma_setup函数主要解析设备树，获取cma区域的地址及大小，然后调用cma_init_reserved_mem函数从全局数组struct cma cma_areas[MAX_CMA_AREAS]获取一个cma进行初始化设置。 int __init cma_init_reserved_mem(phys_addr_t base, phys_addr_t size, unsigned int order_per_bit, const char *name, struct cma **res_cma) { struct cma *cma; phys_addr_t alignment; /* Sanity checks */ if (cma_area_count == ARRAY_SIZE(cma_areas)) { pr_err("Not enough slots for CMA reserved regions!\\n"); return -ENOSPC; } if (!size || !memblock_is_region_reserved(base, size)) return -EINVAL; /* ensure minimal alignment required by mm core */ alignment = PAGE_SIZE << max_t(unsigned long, MAX_ORDER - 1, pageblock_order); /* alignment should be aligned with order_per_bit */ if (!IS_ALIGNED(alignment >> PAGE_SHIFT, 1 << order_per_bit)) return -EINVAL; if (ALIGN(base, alignment) != base || ALIGN(size, alignment) != size) return -EINVAL; /* * Each reserved area must be initialised later, when more kernel * subsystems (like slab allocator) are available. */ cma = &cma_areas[cma_area_count]; （1）从全局数组中获取一个cma if (name) snprintf(cma->name, CMA_MAX_NAME, name); else snprintf(cma->name, CMA_MAX_NAME, "cma%d\\n", cma_area_count); （2）设置cma相关的参数 cma->base_pfn = PFN_DOWN(base); cma->count = size >> PAGE_SHIFT; cma->order_per_bit = order_per_bit; *res_cma = cma; cma_area_count++; totalcma_pages += (size / PAGE_SIZE); return 0; } 命令行或宏方式创建内核还提供通过内核启动参数或宏的方式来进行配置，本章节重点描述内核启动参数的方式，这里的启动参数一般是uboot传递过来的参数。 env.cfg earlycon=uart8250,mmio32,0x02500000 initcall_debug=0 console=ttyAS0,115200 nand_root=/dev/nand0p4 mmc_root=/dev/mmcblk0p4 nor_root=/dev/mtdblock4 init=/init loglevel=8 selinux=0 cma=64M mac= wifi_mac= bt_mac= specialstr= keybox_list=hdcpkey,widevine 笔者系统中内核的启动参数配置在env.cfg中，如下cma的大小配置为64M。内核代码中通过函数dma_contiguous_reserve进行获取cmdline或宏配置的cma大小。 void __init dma_contiguous_reserve(phys_addr_t limit) { phys_addr_t selected_size = 0; phys_addr_t selected_base = 0; phys_addr_t selected_limit = limit; bool fixed = false; pr_debug("%s(limit %08lx)\\n", __func__, (unsigned long)limit); （1）获取cmdline中传入的cma size大小和地址。 if (size_cmdline != -1) { selected_size = size_cmdline; selected_base = base_cmdline; selected_limit = min_not_zero(limit_cmdline, limit); if (base_cmdline + size_cmdline == limit_cmdline) fixed = true; } else { 这里是宏定义的方式 #ifdef CONFIG_CMA_SIZE_SEL_MBYTES selected_size = size_bytes; #elif defined(CONFIG_CMA_SIZE_SEL_PERCENTAGE) selected_size = cma_early_percent_memory(); #elif defined(CONFIG_CMA_SIZE_SEL_MIN) selected_size = min(size_bytes, cma_early_percent_memory()); #elif defined(CONFIG_CMA_SIZE_SEL_MAX) selected_size = max(size_bytes, cma_early_percent_memory()); #endif } if (selected_size && !dma_contiguous_default_area) { pr_debug("%s: reserving %ld MiB for global area\\n", __func__, (unsigned long)selected_size / SZ_1M); （2）获取到cma区域后，进行初始化 dma_contiguous_reserve_area(selected_size, selected_base, selected_limit, &dma_contiguous_default_area, fixed); } } dma_contiguous_reserve_area函数最终还是会调用到cma_init_reserved_mem，进而获取一个cma实例，然后进行初始化cma结构体。 CMA初始化 static int __init cma_init_reserved_areas(void) { int i; 遍历CMA数组，进行初始化 for (i = 0; i < cma_area_count; i++) cma_activate_area(&cma_areas[i]); return 0; } core_initcall(cma_init_reserved_areas); 主要是遍历cma_areas数组，进行初始化。 static void __init cma_activate_area(struct cma *cma) { unsigned long base_pfn = cma->base_pfn, pfn; struct zone *zone; （1）计算需要的bitmap大小，然后进行分配。主要受count和bit的影响。 cma->bitmap = bitmap_zalloc(cma_bitmap_maxno(cma), GFP_KERNEL); if (!cma->bitmap) goto out_error; /* * alloc_contig_range() requires the pfn range specified to be in the * same zone. Simplify by forcing the entire CMA resv range to be in the * same zone. */ WARN_ON_ONCE(!pfn_valid(base_pfn)); （2）判断物理页是否都在一个zone区，需要在同一个zone区。 zone = page_zone(pfn_to_page(base_pfn)); for (pfn = base_pfn + 1; pfn < base_pfn + cma->count; pfn++) { WARN_ON_ONCE(!pfn_valid(pfn)); if (page_zone(pfn_to_page(pfn)) != zone) goto not_in_zone; } （3）将物理页释放到伙伴系统中去。 for (pfn = base_pfn; pfn < base_pfn + cma->count; pfn += pageblock_nr_pages) init_cma_reserved_pageblock(pfn_to_page(pfn)); spin_lock_init(&cma->lock); #ifdef CONFIG_CMA_DEBUGFS INIT_HLIST_HEAD(&cma->mem_head); spin_lock_init(&cma->mem_head_lock); #endif return; not_in_zone: bitmap_free(cma->bitmap); out_error: /* Expose all pages to the buddy, they are useless for CMA. */ for (pfn = base_pfn; pfn < base_pfn + cma->count; pfn++) free_reserved_page(pfn_to_page(pfn)); totalcma_pages -= cma->count; cma->count = 0; pr_err("CMA area %s could not be activated\\n", cma->name); return; } CMA应用 DMA的申请 struct page *dma_alloc_from_contiguous(struct device *dev, size_t count, unsigned int align, bool no_warn) { if (align > CONFIG_CMA_ALIGNMENT) align = CONFIG_CMA_ALIGNMENT; return cma_alloc(dev_get_cma_area(dev), count, align, no_warn); } DMA的释放 bool dma_release_from_contiguous(struct device *dev, struct page *pages, int count) { return cma_release(dev_get_cma_area(dev), pages, count); } 对内核的申请和释放提供给用户使用的分配是dma_alloc_from_contiguous和dma_release_from_contiguous，其调用的是cma_alloc和cma_release来实现的。 cma_alloc指定CMA areas上分配count个连续的page frame，具体就是遍历bitmap看是否有可用内存，如果有就向伙伴系统申请内存，如果伙伴系统将对应的内存挪给其他应用了，那么需要进行页面迁移、页面回收等操作回收回来。 ION 待补充

🕒 2023-08-19 📁 内存管理 👤 laumy 🔥 1591 热度
slub分配器

伙伴系统内存分配是以物理页面4KB为单位，但是实际使用的时候不会一下使用到4KB。实际使用中很多情况会以字节为单位。因此为了更精确的划分使用内存，linux内核在伙伴系统之上使用slab分配器来进行管理。截止目前linux内核中从最初slab发展到现在，衍生了slub，slob三种方式。Linux内核通过配置，选择其中一种。本章节主要围绕slub分配器进行说明。乒乓球的管理某公司的组织架构如上，公司划分为多个中心（事业部），各事业部再划分为多个二级部门，员工所在的部门就在各二级部门。公司有一批数量有限的乒乓球作为全公司的公有资产，提供给员工用于日常借用。乒乓球以盒装为单位，每盒有4个，并对盒和球都进行了编号，球归还是也要与盒子对应。为了有限管理这批乒乓球，假设有如下规定： - 兵乓球被借出去需要明确知道谁借出去了，便于兵乓球资产追溯管理。 - 闲置的球能尽快收回，以便其他人能够使用，使兵乓球利用最大化。 - 员工在借用乒乓球时需要经过部门->中心->公司各级领导的审批。当前出现一个问题，就是员工想打球的时候，每次都要跨多级走流程，时间周期比较长。好不容易有个空闲个时间想打个球，等漫长的流程走完活又来了，没时间打了，但是也不能提前先把球借了，闲置屯着，这样别人想打也打不了，每个人都这样，那实际想打球的也无球可打。为了解决这个问题，小明同学于是设计了这么一套方案，让员工想打球的时候能够快速获得兵乓球，也让公司的球能够利用最大化。借球部门主管向公司申请一盒的球（每盒有4个），然后将球分给D同学。并将该盒乒乓球做标记，在部门内部宣导，此后谁要是向借用球，可直接从该盒从获取，自觉做好登记皆可（不再需要走漫长流程）。有一天部门集体运动，一下子需要多个球，部门主管发现原来的一盒已经不够了，所以又向公司再借了3盒（公司以盒为单位借出，方便管理）。 1、2、3号盒球已经全部借出，所以部门没有再管理了（盒子没啥好管理的，由对应借出的同学共同保管盒子，盒子变成没人要的“孩子”），部门当前管理的是4号盒子（盒子里面还有球，如果还有谁要借，自己拿并自觉做好登记就行）。还球借球人借球时需记住自己从那个盒子里面拿的球，还球时需要找到对应的盒子还球。1号、2号、3号盒分别有人归还了球，但是还没有还满，此前的空盒子是不需要管理的，但是现在盒子里面现在有球了，那必须得管理起来了（一旦盒子非空，就需要管理起来了），直接退还给公司也不行啊，一个是盒子没还满，另外一个就是下次又有大需求量还得走流程申请慢。所以索性部门先将这些盒子管理起来，当前部门累计球数有9个球，闲置在二级部门太多球，也不行，每个二级部门都闲置很多球，球总有耗尽的时候，就有可能其他二级部门的员工没法获得球了，于是公司做了规定，每个部门闲置的球数不能大于4个，因此只有1号和2号盒子可以继续由部门管理，而3号盒子可以不归还公司，但可以由中心先保管。当盒子不再为空时，先由部门进行管理，当部门的球数闲置超过一定数量后，需要交给由中心管理，交给中心管理的单位也是以盒子为单位（还球的人是根据盒子编号找还球的），这样的好处就是，当有该中心的其他二级部门需要借用球是，发现部门没球了，可以先中心是否有球，如果中心有，那就从中心拿就行，不用从公司申请，这样流程虽然没这么快，但相比跟公司申请的流程也有些优化。长期进行下去，中心可能会很多个盒子，同时有些盒子是满的（球都还完了），中心也不能由太多闲置球，否则其他中心就可能没法从公司申请到球了，所以公司规定，对中心管理的盒子数量进行了闲置，如盒子数量不能超过10个，当超过10个时，满盒子的球需要归还给公司。再论借球当二级部门员工进行借球时，可以从4号盒子免报备申请直接登记拿球就好，这样的借球周期是最短的。而1号和2号盒子虽也归部门管理，但是员工不能从这些盒子里面拿，为了管理效率，二级部门只开个了一个盒子的权限（免报备直接登记即可获取），所以借球只能先从4号盒子拿，当4号盒子被拿完了之后，就需要跟主管报备，看部门还没有备用，发现还有，那就将1号盒子再拿出去，此后大家就又可以从1号盒子免报备借球。当部门没有备用球了，就先问中心有没有，如果中心有，那就将先用中心的，从中心拿到的盒子就归部门管理了。如果中心也没有了，那就只能走流程从公司申请了。 slub 基本原理一块缓存 = nslab，slab = m * obj，slab = k page。系统从伙伴系统中分配一个或多个连续的物理页组成一个slab，然后将slab切分为n个相同大小的内存（obj），提供给linux内核系统使用，这些相同obj大小组成一个集合。可以通过cat /proc/slabinfo查看系统中slab的信息。 actives_objs:已经分配出去的对象数量 num_objs:一共有多少个对象，包含使用的和未使用的。 objsize:每个对象的大小是多少，单位是字节 objperslab:每个slab中的对象数量是多少。 pagesperslab:每个slab对应的page数量 limit/batchcount/sharedfactor：这些是可调整的参数，使用slub分配器没有使用 actives_slabs: 非游离状态的slab数量 nums_slabs:一共有多少slab sharedavail:待记录 slub函数接口关键数据结构设计思想为什么kmem_cache中分为每个cpu分配对应有缓存池，每个节点有对应的缓存池。每个cpu分配的缓存池又再划分为当前正在使用的缓存slab，以及备用缓存slab（Per-CPU partial）？访问Per-CPU slab是不需要加锁的，所以获取速度很快。访问node slab是需要加锁的，因为这是多个cpu共享的slab，访问速度慢。而中间的Partial slab是方便Current slab的，系统分配slab必须要从current slab中分区对象，当current slab对象使用完时，就会从依次L2从L3中获取新的slab变成Per-CPU current。因为L3是需要加锁，为了进一步解决这速率问题，中间加了Per-CPU partial slab，当Per-CPU current slab中的所有对象被分配完后将会被移除变成游离状态，而当系统释放当前处理游离状态的full slab中对象时其就会变成部分full 对象的slab，其会被再次从游离状态添加到链表中等待系统从中分配，因此这个slab就会被添加到Partial slab链表中，当下次current slab中没有可用对象时，再将其Partial 链表中的slab置为current slab，这样就不用从Node Partial slab中获取，减少锁的使用，提高系统使用率。 kmem_cache struct kmem_cache是管理slub分配器的的基础数据结构。 struct kmem_cache { struct kmem_cache_cpu __percpu *cpu_slab; 一个cpu对应一个本地内存缓存池 slab_flags_t flags; unsigned long min_partial; 限制struct kmem_cache_node中partial链表slab的数量，如果slab数量超过这个值，那么多余的slab需要被释放会伙伴系统。 unsigned int size; 分配object的大小，包含一些管理数据。 unsigned int object_size; object对象的内存大小，用户层每次分配大小。 struct reciprocal_value reciprocal_size; unsigned int offset; 用于寻找object的地址 #ifdef CONFIG_SLUB_CPU_PARTIAL /* Number of per cpu partial objects to keep around */ unsigned int cpu_partial; 每CPU中slab的空闲对象最大值，当超过这个值，需要将slab转移到kmem_cache_node的partial链表 #endif struct kmem_cache_order_objects oo; 低16代表一个slab中的object数量，高16代表一个slab需要多个page数量。 /* Allocation and freeing of slabs */ struct kmem_cache_order_objects max; struct kmem_cache_order_objects min; gfp_t allocflags; /* gfp flags to use on each alloc */ int refcount; /* Refcount for slab cache destroy */ void (*ctor)(void *); unsigned int inuse; /* Offset to metadata */ unsigned int align; /* Alignment */ unsigned int red_left_pad; /* Left redzone padding size */ const char *name; /* Name (only for display!) */ struct list_head list; /* List of slab caches */ #ifdef CONFIG_SYSFS struct kobject kobj; /* For sysfs */ #endif #ifdef CONFIG_SLAB_FREELIST_HARDENED unsigned long random; #endif #ifdef CONFIG_NUMA /* * Defragmentation by allocating from a remote node. */ unsigned int remote_node_defrag_ratio; #endif #ifdef CONFIG_SLAB_FREELIST_RANDOM unsigned int *random_seq; #endif #ifdef CONFIG_KASAN struct kasan_cache kasan_info; #endif unsigned int useroffset; /* Usercopy region offset */ unsigned int usersize; /* Usercopy region size */ struct kmem_cache_node *node[MAX_NUMNODES];NUMA系统中，每个node都有一个slab缓存池。 }; kmem_cache_cpu 每个cpu都有个自己的slab缓存池，使用struct kmem_cache_cpu来描述每个cpu自己所属的缓存池. struct kmem_cache_cpu { void **freelist; 指向下一个可用的object地址 unsigned long tid; /* Globally unique transaction id */ struct page *page; 指向当前正在使用的slab地址，只有一个slab。复用struct page来描述一个slab #ifdef CONFIG_SLUB_CPU_PARTIAL struct page *partial; 指向slab中只有一部分空闲object的地址，可能存在多个部分空闲对象的slab，slab直接通过struct page中的next链表进行串联起来。与上一个的区别：这是一个slab集合，而上一个只有一个slab，表示正在使用的slab ，当正在使用的slab中object对象全部用完后，就会变成一个full slab将会被游离出去，而当slab中某个object被释放后，就变成了存在部分空闲对象的slab，这个slab将会被重新被添加到partial中去。 #endif local_lock_t lock; /* Protects the fields above */ #ifdef CONFIG_SLUB_STATS unsigned stat[NR_SLUB_STAT_ITEMS]; #endif }; kmem_cache_node struct kmem_cache_node { spinlock_t list_lock; #ifdef CONFIG_SLUB unsigned long nr_partial; 节点中slab的数量 struct list_head partial; 用于将各个slab串起来的链表 #ifdef CONFIG_SLUB_DEBUG atomic_long_t nr_slabs; atomic_long_t total_objects; struct list_head full; #endif #endif }; struct page 复用struct page结构体来描述slub。 struct page { unsigned long flags; 设置标志位，PG_slab，表示页属于SLUB内存管理器 union { struct { /* slab, slob and slub */ union { struct list_head slab_list; 用于将slab添加到partial部分空闲链表 struct { /* Partial pages */ struct page *next; int pages; /* Nr of pages left */ int pobjects; /* Approximate count */ }; }; struct kmem_cache *slab_cache; /* not slob */索引page所所属的kmem_cache void *freelist; /* first free object */ 指向slab中第一个空闲对象 union { void *s_mem; /* slab: first object */ unsigned long counters; /* SLUB */ struct { /* SLUB */ unsigned inuse:16; 当前slab已分配对象的数量 unsigned objects:15; 当slab所包含对象的总数 unsigned frozen:1; slab是否缓存到Per-CPU缓存池（冻结）， }; }; }; } _struct_page_alignment; slub重要概念内核中通过一下配置来使能SLUB内存管理。 CONFIG_SLUB_DEBUG=y CONFIG_SLUB=y CONFIG_SLAB_MERGE_DEFAULT=y CONFIG_SLUB_CPU_PARTIAL=y CONFIG_MEMCG_KMEM=y # CONFIG_SLAB_FREELIST_RANDOM is not set # CONFIG_SLAB_FREELIST_HARDENED is not set 对象内存组织对象的内部组织如上，有两种布局方式，主要区别是指向下一个空闲对象的指针存储方式不同。当flags设置了SLAB_TYPESAFE_BY_RCU/SLAB_POISON/ctor构造函数不为空则使用第一种方式，即下一个空闲对象的指针放到当前空闲对象的末端，占据8个字节（64bit）空间；反之使用第二种方式，复用当前对象的空间，存放下一个对象的地址再起始地址。同时如果使能了CONFIG_SLUB_DEBUG，对象内部的布局会新增用于跟踪分配/释放的用户，便于调试。下面是4个对象的示意图。 struct kmem_cache_cpu::freelist和struct page::freelist这两个都是用于指向第一个空闲对象的地址，其中struct page * page->freelist指向内存节点空闲链表slab中的第一个空闲对象，当这个slab被设置为活动slab后，表示当前该slab正在被使用，page->frozen=1，表示已经处于冻结，那么page->freelist=NULL，slab中第一个空闲对象地址被存放到cpu_slab->freelist中。在分配对象时，值需要将当前freelist地址返回，让后将freelist地址更新到下一个空闲对象的起始地址即可。 slub的挂载和活动的slub 系统中的Slub的可以认为被挂载在4个地方： - 正在使用的slub（只有一个slub）：cpu_slab->page指向的slub。 - Per-CPU partial上的slub：cpu_slab->partial指向的slub，用链表组织起来，可以存在多个。 - Node节点partial的slub：node->partial指向的slub，用链表组织起来，每个节点对应一个链表，每个链表有可以多个slub。 - 游离状态的slub：前三种slub中的至少还有有部分对象未被使用，处于空闲，当slub中所有对象都被用完时，将会移除，相当于游离状态，如果打开了SLUB_DEBUG，这些slub会被串到链表上。分配内存对象，都是从kmem_cache中cpu_slab->freelist上获取，该slub为正在使用的slub，也称为活动的slub（自己命名的），即使当cpu_slab->freelist为空或者cpu_slab->page为空，从Per-CPU partial或者Node partial中获取slub时，其就会被设置为活动的slub。创建kmem_cache 分配slub cache 第一次分配 Slub刚创建的时候并没有实际分配内存，所以kmem_cache中无论时cpu_slab还是node节点中，都没有slab缓存，第一次申请的时候会从伙伴系统分配页面生成一个slab，然后取其中一个object返回给系统。此后，在没有分配完成当前slab中的object时，分配内存直接返回freelist就是对应的空闲object内存。从Per CPU partial中分配获取从当前活动的slab中无法分配到object，那就从Per CPU partial上进行获取一个slab进行分配，设置为活动的slab，此前的活动的slab就会被游离出去（full slab，如果开了SLUB DEBUG，会添加到这个debug链表中，如果没有开，就相当于没有要的孩子，当释放对象的时候会通过对应的slab描述符号相关成员找出来。）。从Node Partial中获取如果从Per CPU partial中依旧没法后去到slab，就会从node partial中获取slab，然后将其设置为活动的slab，此前活动的slab设置为游离状态。释放slub cache Slab中对象部分被使用（非游离）：① ② ③场景（1）释放了obj后，slab中还存在部分obj未释放：直接释放，建立好空闲obj之间的联系即可。（2）释放了obj后，slab所有的obj都为空闲：如果在node partial上，nr_partial>min_partial,表明节点上存在的slab数量超过上限，空闲的slab会回收到伙伴系统中；如果是在Per-CPU partial上，管理的slab中空闲object数量大于cpu_partial（kmem_cache成员），将该slab移动到node partial链表上管理。 Slab中对象全部被使用（游离）：④⑤场景释放了obj之后，slab变成部分空闲的slab，由于此前是处于游离状态，没有添加到对应链表管理（未开SLUB DEBUG），当变成部分空闲是，就需要将其进行管理。首先尝试将slab添加到Per-CPU partial中，如果Per-CPU超过阈值没法管理了，就添加到Node parital中。 kmalloc 函数接口 kmalloc实现 static __always_inline void *kmalloc(size_t size, gfp_t flags) { 1.判断参数是否为常数 if (__builtin_constant_p(size)) { #ifndef CONFIG_SLOB unsigned int index; #endif if (size > KMALLOC_MAX_CACHE_SIZE) return kmalloc_large(size, flags); #ifndef CONFIG_SLOB index = kmalloc_index(size); if (!index) return ZERO_SIZE_PTR; return kmem_cache_alloc_trace( kmalloc_caches[kmalloc_type(flags)][index], flags, size); #endif } return __kmalloc(size, flags); 2.直接走这里 } void *__kmalloc(size_t size, gfp_t flags) { struct kmem_cache *s; void *ret; 1.如果分配空间大于KMALLOC_MAX_CACHE_SIZE，直接从伙伴系统进行分配 if (unlikely(size > KMALLOC_MAX_CACHE_SIZE)) return kmalloc_large(size, flags); 2.创建slab的数据结构，实际上建立的是全局kmem_cache s = kmalloc_slab(size, flags); if (unlikely(ZERO_OR_NULL_PTR(s))) return s; 3.slab分配器 ret = slab_alloc(s, flags, _RET_IP_, size); trace_kmalloc(_RET_IP_, ret, size, s->size, flags); ret = kasan_kmalloc(s, ret, size, flags); return ret; } struct kmem_cache *kmalloc_slab(size_t size, gfp_t flags) { unsigned int index; struct kmem_cache *s = NULL; if (size KMALLOC_MAX_CACHE_SIZE)) return NULL; index = fls(size - 1); } trace_android_vh_kmalloc_slab(index, flags, &s); if (s) return s; 2.在全局kmalloc_caches数组中找到对应的kmem_cache示例返回。 return kmalloc_caches[kmalloc_type(flags)][index]; } static u8 size_index[24] __ro_after_init = { 3, /* 8 */ 4, /* 16 */ 5, /* 24 */ 5, /* 32 */ 6, /* 40 */ 6, /* 48 */ 6, /* 56 */ 6, /* 64 */ 1, /* 72 */ 1, /* 80 */ 1, /* 88 */ 1, /* 96 */ 7, /* 104 */ 7, /* 112 */ 7, /* 120 */ 7, /* 128 */ 2, /* 136 */ 2, /* 144 */ 2, /* 152 */ 2, /* 160 */ 2, /* 168 */ 2, /* 176 */ 2, /* 184 */ 2 /* 192 */ }; 启动阶段创建kmem_cache 系统启动初期调用create_kmalloc_caches创建多个管理不同大小对应的kmem_cache，最大的size一般是8K，也就是对应的是kmalloc-8192，当系统通过kmalloc申请内存时，会直接从其中获取。 void __init create_kmalloc_caches(slab_flags_t flags) { int i; enum kmalloc_cache_type type; if (android_kmalloc_64_create) for (type = KMALLOC_NORMAL; type

🕒 2023-08-13 📁 内存管理 👤 laumy 🔥 402 热度
伙伴系统

相关结构体核心结构体 struct pglist_data: 节点的描述，arm64 UMA架构中，只有一个节点。 struct zone node_zone[]：是一个数组，每个元素表示一个内存区域所对应的 struct zone 结构体。从名字可以看出，此数组的长度为 MAX_NR_ZONES，即它最多可以包含 MAX_NR_ZONES 个元素，因此，此数组通常用于描述系统所能支持的所有内存区域。这些内存区域可能包括不同类型（例如，DMA、普通或高端）和大小的内存区域。 struct zonelist node_zonelists[]：仅在 NUMA 架构系统中使用。它也是一个数组，每个元素表示一个 NUMA 节点所对应的内存区域所组成的链表。它是为了支持 NUMA 系统中的内存分配而设计的。在 NUMA 系统中，每个节点只能访问一部分物理内存，因此需要将所有可访问的内存区域组成一个链表供内存分配器使用。从名字可以看出，此数组的长度为 MAX_ZONELISTS，即它最多可以包含 MAX_ZONELISTS 个元素，因此，此数组通常用于描述系统所支持的所有 NUMA 节点。 struct lruvec lruvec：用于处理该节点的页面回收 struct per_cpu_pageset: pageset用于实现冷热分配器，内核页时热的意味着页已经加载到CPU高速缓存，与在内存中的页相比，其数据能够更快地访问。相反，冷页则不再高速缓存中，在多处理器系统上，每个CPU都有一个或多个高速缓存。 free_area:用于实现伙伴系统，每个数组元素都表示某中固定长度的一些连续内存区。对于包含在每个区域的空闲内存页的管理。 free_area 上图描述出了Node->zone->free_area->page之间的关系。 struct zone { ...... struct free_area free_area[MAX_ORDER]; //存储着不同长度的空闲区域 ...... } 伙伴系统中是以2^n次方来对内存进行分配的，因此系统中是以2^n次方来组织链表结构的。例如struct free_area[2]对应的就是2^n个page内存块链表。 struct free_area { struct list_head free_list[MIGRATE_TYPES]; unsigned long nr_free; } nr_free指定了当前内存区中空闲页块的数目。 free_list用于连接空闲页的链表，每种迁移类型都对应于一个空闲列表。 free_area[]确定连续内存的级数后，还会根据其MIGRATE类型来进行分类。这样做是为了便更好的管理内存，以减少内存碎片。基本原理为了解决内存碎片的问题，linux内核使用的伙伴系统算法。伙伴系统算法是一个高效且简单的内存分配策略，当我们找到待分配内存的zone后，内核将从对应zone的空闲链表中去分配内存。在释放内存是，内核将相应的内存还回相应的内存还回对应的zone空闲内存链表中。如上图所示free_area数组大小为MAX_ORDER，也就是free_area数组存放着MAX_ORDER个链表，每个链表的元素存放的页块大小为2的n次幂，其中n为该链表在free_area数组中的索引位置。在同一个order内存块中，有根据MIGRATE类型将page存放在不同的链表中。伙伴系统内存块分配如果内核要分配2^n个页内存大小，伙伴系统处理方式如下：（1）检查对应的free_area[n]索引（如果是3，则是free_area[3]）的数组，如果在其索引下的链表有空闲内存块，则返回。（2）如果没有找到满足要求的内存块，则查找n+1数组索引（free_area[4]），若存在空闲内存块，将n+1索引的内存块拆分成大小相等且连续的两块内存，将一块内存返回给内核使用，另外一块内存添加到n的数组索引链表中。（3）若n+1数组索引中依旧没有找到，则继续向n+2数组索引寻找，再依次向下拆分，直至满足要求位置。伙伴系统内存块合并当系统中存在两块大小一样，内存物理地址连续将会试图合并添加到上一阶。上图中在free_area[2]中有5个空闲内存块，当非空闲内存块PFN=6即将释放是，伙伴系统将会进行检查，发现PFN=6与PFN=1内存块大小一样且连续，则进行合并添加到order=3的上一阶连续内存块中，同时在order=3中会继续搜索，看是否满足可以合并添加到order=4中，直到不能合并为止。struct page中有几个成员变量与伙伴系统有关系。 __mapcount:标记page是否在伙伴系统中 private：页块中的第一页private字段存放了内存块的order值 index：存放MIFRATE的类型 __refcount：用户使用计数内存块迁移伙伴系统能一定程度解决内存碎片问题，但是系统运行久之后，内核会大量的进行内存的分配和释放工作，这依旧会导致内存碎片。如上图，假定内存由60页组成，左侧的地址空间散布着空闲页，尽管25%的物理内存仍然未分配，但最大的连续空闲区只有一页。这对用户空间应用程序是没问题（其内存通过页表映射，即使空闲页在物理内存中分布如何，应用程序看到的内存是连续的）。右图给出的情形中，空闲页和使用页的数目与作图相同，但所有空闲页都位于一个连续区中。为了缓解这种内存碎片问题，内核伙伴系统引入了MIGRATE。下面是Linux内核中用于描述不同内存区域的迁移类型常量，表示对应区域中页面的可移动性和重要性等属性。 MIGRATE_ISOLATE:表示这个内存区域的页面不可移动，并且需要独立出来，例如用于设备DMA。 MIGRATE_CMA:表示这个内存区域的页面被保留用于连续内存分配（CMA），通常用于一些嵌入系统中。 MIGRATE_HIGHATOMIC:表示这个内存区域的页面被预期会经常进行搞优先级内存操作，例如解锁页需要使用硬件原子操作。 MIGRATE_MOVABLE:表示这个内存区域的页面可以自由被迁移，通常用于用户空间的虚拟内存或者支持虚拟机的内存管理场景。 MIGRATE_RECALAIMABLE:表示这个内存区域的页面可以被回收，例如包含缓存页，匿名页等。 MIGRATE_UNMOVABLE:表示这个内存区域的页面不可移动，例如内核代码，内核数据等。在伙伴系统分配连续内存块是，当一个指定迁移类型所对应的链表中没有空闲内存块时，内核将会按照静态定义的顺序在其他迁移类型的链表中进行寻找。 static int fallbacks[MIGRATE_TYPES][3] = { [MIGRATE_UNMOVABLE] = { MIGRATE_RECLAIMABLE, MIGRATE_MOVABLE, MIGRATE_TYPES }, [MIGRATE_MOVABLE] = { MIGRATE_RECLAIMABLE, MIGRATE_UNMOVABLE, MIGRATE_TYPES }, [MIGRATE_RECLAIMABLE] = { MIGRATE_UNMOVABLE, MIGRATE_MOVABLE, MIGRATE_TYPES }, #ifdef CONFIG_CMA [MIGRATE_CMA] = { MIGRATE_TYPES }, /* Never used */ #endif #ifdef CONFIG_MEMORY_ISOLATION [MIGRATE_ISOLATE] = { MIGRATE_TYPES }, /* Never used */ #endif }; 初始化初始化相关数据结构伙伴系统相关数据结构主要在zone_sizes_init中完成，主要的几点如下：（1）为每个zone区域的free_area[]数组中的MIGRATE free list链表初始化。（2）为每个zone区域所有的页框描述符struct page（分配）初始化。（3）为每个zone区域中所有的pageblock设定迁移类型。（4）为每个内存节点初始化可使用的备用内存node_zonelists。为每个zone区域的每cpu成员pageset初始化。 memblock内存释放到伙伴系统页面分配器分配器API 就伙伴系统接口而言，与c库中的malloc函数不同的是，这里分配的参数是以分配阶为参数，即伙伴系统将在内存中分配2^order页。分配接口分配掩码区域修饰符移动修饰符水线修饰符回收修饰符 alloc_pages alloc_pages最终会调用到__alloc_pages，分配物理页面首先会先尝试从伙伴系统中进行快速分配，如果快速分配不成功会进入慢速分配。快速分配和慢速分配的区别？ prepare_alloc_pages 用于初始化页面分配器中用到的参数，确定首选的zone等。在页面分配器中，使用alloc_context数据结构来用于各函数之间的参数传递。 #include “mm/internal.h” struct alloc_context { struct zonelist *zonelist; nodemask_t *nodemask; struct zoneref *preferred_zoneref; int migratetype; enum zone_type highest_zoneidx; bool spread_dirty_pages; }; zonelist: 分配页面的区域列表 nodemask：指定的node，如果没有指定则在所有节点中进行分配 prefered_zoneref：指定首先分配的区域 migratetype:要分配的迁移类型 highest_zoneidx:将分配限制为小于区域列表中指定的高区域 spread_dirty_pages:脏区平衡相关 static inline bool prepare_alloc_pages(gfp_t gfp_mask, unsigned int order, int preferred_nid, nodemask_t *nodemask, struct alloc_context *ac, gfp_t *alloc_gfp, unsigned int *alloc_flags) { ac->highest_zoneidx = gfp_zone(gfp_mask); ac->zonelist = node_zonelist(preferred_nid, gfp_mask); //（1）确定首选内存节点的zonelist，一个内存节点包含两个zonelist，一个是本地的，另外一个是远端的，对于arm64架构只有一个。 ac->nodemask = nodemask; ac->migratetype = gfp_migratetype(gfp_mask); //（2）根因分配掩码来确定获取内存的迁移类型 if (cpusets_enabled()) { *alloc_gfp |= __GFP_HARDWALL; /* * When we are in the interrupt context, it is irrelevant * to the current task context. It means that any node ok. */ if (in_task() && !ac->nodemask) ac->nodemask = &cpuset_current_mems_allowed; else *alloc_flags |= ALLOC_CPUSET; } fs_reclaim_acquire(gfp_mask); fs_reclaim_release(gfp_mask); might_sleep_if(gfp_mask & __GFP_DIRECT_RECLAIM); if (should_fail_alloc_page(gfp_mask, order)) return false; *alloc_flags = gfp_to_alloc_flags_cma(gfp_mask, *alloc_flags); /* Dirty zone balancing only done in the fast path */ ac->spread_dirty_pages = (gfp_mask & __GFP_WRITE); /* * The preferred zone is used for statistics but crucially it is * also used as the starting point for the zonelist iterator. It * may get reset for allocations that ignore memory policies. */ ac->preferred_zoneref = first_zones_zonelist(ac->zonelist, ac->highest_zoneidx, ac->nodemask); //（3）确定首选的zone return true; } 快速路径分配遍历zonelist中的zone，扫描zone的方向是从高端zone到低端zone，大部分情况不一定扫描zonelist中所有的zone，而是从首选zone(prefered_zone)开始扫描，首选zone是通过gfp_mask换算。 alloc_context是一个非常重要的参数，其存储了zone从哪里开始扫描，内存分配的迁移类型等。zone_watermark_ok将会检测在分配内存时需要判断zone的水位情况以及是否满足分配连续大内存块的需求，如果不符合则分配失败。 rmqueue会从伙伴系统中获取内存，如果对应的order不满足，就会从高一阶的内存块区获取。在调用requeue分配内存时，当分配的时单个物理页面(order=0)，将会调用rmqueue_pcplist函数，从Per-CPU变量per_cpu_pages中分配页面。per_cpu_pages是一个Per-CPU变量，即每个CPU都由一个本地的per_cpu_pages变量，这个per_cpu_pages数据结构理由一个单页面链表，里面存放一小部分单个物理页面，当系统需要单个物理页面是，就从本地CPU的Per-CPU变量链表中直接获取物理页面，这样就可以快速分配内存，减少zone中相关锁的操作（在多个节点中访问内存会有锁保护）。慢速路径分配水位管理水位管理的设置主要在init_per_zone_wmark_min函数中实现，如下： int __meminit init_per_zone_wmark_min(void) { （1）计算min_free_kbytes值 calculate_min_free_kbytes(); （2）设置各zone的水位值 setup_per_zone_wmarks(); （3）zone状体阈值，用于内存压缩，Per-CPU相关？ refresh_zone_stat_thresholds(); （4）设置各zone区预留内存 setup_per_zone_lowmem_reserve(); #ifdef CONFIG_NUMA setup_min_unmapped_ratio(); setup_min_slab_ratio(); #endif khugepaged_min_free_kbytes_update(); return 0; } 相关数据结构 #include "common/framework/platform_init.h" struct zone { ...... unsigned long _watermark[NR_WMARK]; unsigned long nr_reserved_highatomic; long lowmem_reserve[MAX_NR_ZONES]; atomic_long_t managed_pages; unsinged long spanned_pages; unsinged long present_pages; ...... }; enum zone_wtermarks { WMARK_MIN, WMARK_LOW, WMARK_HIGH, NR_WMARK, }; #define min_wmark_pages(z) (z->watermark[WMARK_MIN]) #define low_wmark_pages(z) (z->watermark[WMARK_LOW]) #define high_wmark_pages(z) (z->watermark[WMARK_HIGH]) _watermark[NR_WMARK]:存储水位等级对应的内存容量 nr_reserved_highatomic:该内存区域内预留内存的大小，其大小=watermark[WMARK_MIN]？ lowmem_reserve[MAX_NR_ZONES]：每个区域必须为自己保留一定的物理页数量，防止高位内存区域对自己内存空间进行过多的挤压。如当NORMAL区域分配不到内存是，会往下分配DMA区域，DMA区域要保留一定空间不能让NORMAL区域的挤压。 managed_pages: 通过buddy伙伴系统管理的所有可用页，=present_pages-reserved_pages spanned_pages:zone区域所有的物理页，包含空洞，=zone_end_pfn-zone_start_pfn present_pages:zone区域可用的所有物理页，包含reserved_pages，=spanned_pages-hole_pages WMARK_HIGH:当物理内存区域的剩余内存容量高于_watermark[WMARK_HIGH]时，说明物理内存区域中的内存容量非常充足，内存分配没有压力 WMARK_LOW:当剩余内存容量介于_watermark[WMARK_LOW]与_watermark[WMARK_HIGH]之间时，说明此时内容容量有点危险了，内存分配面临一定压力，但是还可以满足进程的内存分配要求，当给进程分配完内存之后，就会唤醒kswapd进程开始进行内存回收，知道剩余内存高于_watermark[WMARK_HIGH]为止。分配内存时会触发内存回收，但是分配的进程本身不会被阻塞，属于异步回收内存。 WMARK_MIN:当剩余内存容量低于_watermark[WMARK_MIN]时，说明此时的内容容量非常危险了，如果进程再此时请求分配内存，内核会进行阻塞式直接内存回收，直到内存容量大于_watermark[WMARK_LOW]给予分配。_watermark[WMARK_MIN]以下的内存容量时预留给内核在紧急情况下使用的，这部分内存对应的时nr_reserved_highatomic。水位线的计算概述 WMARK_HIGH,WMARK_LOW,WMARK_MIN这个三个水位线的数值是通过内核参数/proc/sys/vm/min_free_kbytes为基准分别计算处理的，单位是KB。min_free_kbytes是系统保留空闲内存的最低限，_watermark[WMARK_MIN]的是通过min_free_kbytes计算出来的。 _watermark[WMARK_MIN]=f(min_free_kbytes) _watermark[WMARK_LOW]=1.25*_watermark[WMARK_MIN] _watermark[WMARK_HIGH]=1.5*[WMARK_LOW] min_free_kbytes计算在函数calculate_min_free_kbytes用于计算min_free_kbytes的值，接下来线看看min_free_kbytes内核是如何计算出来的。如下（如果有DMA32也需要包含进去），初始化时high=0，所以实际等于ZONE_DMA+ZONE_NORMAL中managed_pages的和。 static unsigned long nr_free_zone_pages(int offset) { struct zoneref *z; struct zone *zone; /* Just pick one node, since fallback list is circular */ unsigned long sum = 0; struct zonelist *zonelist = node_zonelist(numa_node_id(), GFP_KERNEL); （1）对每个zone做计算，将每个zone中低于high水位的可用内存做累加，得到如上图的A+B。初始化时，high_pages实际=0. for_each_zone_zonelist(zone, z, zonelist, offset) { unsigned long size = zone_managed_pages(zone); unsigned long high = high_wmark_pages(zone); if (size > high) sum += size - high; return sum; } unsigned long nr_free_buffer_pages(void) { return nr_free_zone_pages(gfp_zone(GFP_USER)); } void calculate_min_free_kbytes(void) { unsigned long lowmem_kbytes; int new_min_free_kbytes; （2）低位内存区域（非HIGH_MEM，实际上64没有HIGH_MEM）总容量有页数转为KB。 lowmem_kbytes = nr_free_buffer_pages() * (PAGE_SIZE >> 10); （3）对lowmem_kbytes*16再进行开方 new_min_free_kbytes = int_sqrt(lowmem_kbytes * 16); （4）user_min_free_kbytes是用户设置的值（/proc/sys/vm/min_free_kbytes），算出来的值与用户设置的值进行比较取大值，但是最终范围需要介于128~262144KB之间 if (new_min_free_kbytes > user_min_free_kbytes) { min_free_kbytes = new_min_free_kbytes; if (min_free_kbytes < 128) min_free_kbytes = 128; if (min_free_kbytes > 262144) min_free_kbytes = 262144; } else { pr_warn(\"min_free_kbytes is not updated to %d because user defined value %d is preferred\\n\", new_min_free_kbytes, user_min_free_kbytes); } } 水位线设置函数setup_per_zone_wmarks用于计算watermark[min,low,high]的值。 static void __setup_per_zone_wmarks(void) { （1）将min_free_kbytes转为page为单位 unsigned long pages_min = min_free_kbytes >> (PAGE_SHIFT - 10); unsigned long lowmem_pages = 0; struct zone *zone; unsigned long flags; /* Calculate total number of !ZONE_HIGHMEM pages */ for_each_zone(zone) { if (!is_highmem(zone)) lowmem_pages += zone_managed_pages(zone); } for_each_zone(zone) { u64 tmp; (2)计算出水线挡位基础值tmp= (u64)min_free_kbytes/ 4 * zone_managed_pages(zone) / lowmem_pages 如果只有一个zone的话，tmp= min_free_kbytes / 4 spin_lock_irqsave(&zone->lock, flags); tmp = (u64)pages_min * zone_managed_pages(zone); do_div(tmp, lowmem_pages); (3)HIGHMEM_ZONE水线挡位计算 if (is_highmem(zone)) { /* * __GFP_HIGH and PF_MEMALLOC allocations usually don\'t * need highmem pages, so cap pages_min to a small * value here. * * The WMARK_HIGH-WMARK_LOW and (WMARK_LOW-WMARK_MIN) * deltas control async page reclaim, and so should * not be capped for highmem. */ unsigned long min_pages; min_pages = zone_managed_pages(zone) / 1024; min_pages = clamp(min_pages, SWAP_CLUSTER_MAX, 128UL); zone->_watermark[WMARK_MIN] = min_pages; } else { /* * If it\'s a lowmem zone, reserve a number of pages * proportionate to the zone\'s size. */ zone->_watermark[WMARK_MIN] = tmp; (4)非HIGHMEM_ZONE 水位线min挡位的计算 } /* * Set the kswapd watermarks distance according to the * scale factor in proportion to available memory, but * ensure a minimum size on small systems. */ （5）计算各个zone的low和hig挡位的值，挡位值tmp会受用户节点/proc/sys/vm/watermark_scale_factor的影响，让用户可调节min到low和high间的比例关系。tmp为min与low和high之间的差值，mult_frac(zone_managed_pages(zone),watermark_scale_factor, 10000)=zone_managed_pages(zone)* (watermark_scale_factor/10000)，即总内存大小*（watermark_scale_factor/10000），因此tmp取的是 tmp >> 2和（watermark_scale_factor/10000)的最大值，意思就是即使用户通过节点修改，但是值算出来小，还是会选择原计算出来的差值。 tmp = max_t(u64, tmp >> 2, mult_frac(zone_managed_pages(zone), watermark_scale_factor, 10000)); zone->watermark_boost = 0; zone->_watermark[WMARK_LOW] = min_wmark_pages(zone) + tmp; zone->_watermark[WMARK_HIGH] = min_wmark_pages(zone) + tmp * 2; spin_unlock_irqrestore(&zone->lock, flags); } /* update totalreserve_pages */ calculate_totalreserve_pages(); } watermark_scale_factor min水位到low和high水位之间的距离，可以通过调节节点/proc/sys/vm/watermark_scale_factor来控制，内存占比计算方式为范围为watermark_scale_factor/10000，意思是min与low的差值为总内存大小*。（watermark_scale_factor/10000），watermark_scale_factor取值范围10~1000，所以占比范围0.1%~10%（10/10000~1000/10000）。因此min和low的差值为总内存大小*（0.1%~10%）。小结，对应水线的low和high为止分两种情况： - 若min_free_kbytes偏大，则水线low到high区间长度由min_free_kbytes决定， - 若min_free_kbytes偏小，则水线low到high区间长度由watermark_scale_factor决定。当分配内存发现剩余空间低于低水位，将会唤醒kswpad内核线程进行内存回收,回收过程是异步的，如果low与min水位差值较小，即使kswpad启动，但是回收过程是缓慢，当出现突发大内存分配时，可能直接触发到min水位，这时候就会触发阻塞式内存回收（Direct Reclaim），所以需要进行合理的调整low和min之间的差值，因此引入了watermark_scale_factor，该值就是进行人为调整low和min之间的差值，当差值较大时，中间空余空间较大，也能使kswpad提前进行唤醒回收内存。可以观察/proc/vmstat中的allocstall计数，当进程频繁发生allocstall或者kswapd过早进入休眠状体，说明min和low水位差值太小，无法应对突发内存分配。即可通过watermark_scale_factor用于调整kspwad的激进程度。 cat /proc/vmstat |grep -E 'allocstall|kswapd_low_wmark_hit_quickly' allocstall_dma 0 allocstall_dma32 0 allocstall_normal 4 allocstall_movable 11 kswapd_low_wmark_hit_quickly 611 如上，如果这些数值在短时间内是否有增加，如果是，则说明频繁发生Direct Recleam，需要调大watermark_scale_factor。思考：如果min和low水位线差值很大，又有什么坏处？ watermark判断在快速路径分配章节中，内存分配会进行水位的检测，其中__zone_watermark_ok用于检测内存水位情况。预留内存根据物理内存地址高低，低位内存到高位内存区域的顺序一次：ZONE_DMA，ZONE_DMA32，ZONE_NORMAL，ZONE_HIGHMEM。当高位内存区域不够用时，内存就会向下挤压其他内存区域物理内存来满足内存分配需求。如从ZONE_NORMAL中分配内存，当分配完是会从ZONE_DMA中进行分配。但是内核不允许高位内存无限制的挤压低位内存区域，因为低位内存有着特定的用途，比如ZONE_DMA区域满足特定设备的寻址（ISA）。因此每个内存区域会给自己预留一定的内存，防止被高位内存区域挤压占用。每个内存区域位自己预留的这部分内存就存储在lowmem_reserve数组中。 struct zone { ...... unsigned long nr_reserved_highatomic; long lowmem_reserve[MAX_NR_ZONES]; ...... } nr_reserved_highatomic:该节点内存区域一共预留的内存大小？ lowmem_reserve：用于规定每个内存区域为自己预留的物理页面数量，防止高位内存区域挤压。预留内存与lowmem_reserve_ratio值有关。 int sysctl_lowmem_reserve_ratio[MAX_NR_ZONES] = { #ifdef CONFIG_ZONE_DMA [ZONE_DMA] = 256, #endif #ifdef CONFIG_ZONE_DMA32 [ZONE_DMA32] = 256, #endif [ZONE_NORMAL] = 32, #ifdef CONFIG_HIGHMEM [ZONE_HIGHMEM] = 0, #endif [ZONE_MOVABLE] = 0, }; 系统通过读取节点也能够获取其值（如下，没有HIGHMEM） root@TinaLinux:/# cat /proc/sys/vm/lowmem_reserve_ratio 256 256 32 0 假设ZONE_DMA32，ZONE_NORMAL，ZONE_MOVABLE的内存大小分别是B,C,D，则预留内存的计算方式如下： - ZONE_DMA: B/256 + (B+C)/256 + (B+C+D)/256 - ZONE_DMA32: C/256 + (C+D)/256 - ZONE_NORMAL:D/32 - ZONE_MOVABLE：0 static void setup_per_zone_lowmem_reserve(void) { struct pglist_data *pgdat; enum zone_type i, j; for_each_online_pgdat(pgdat) { for (i = 0; i < MAX_NR_ZONES - 1; i++) { struct zone *zone = &pgdat->node_zones[i]; int ratio = sysctl_lowmem_reserve_ratio[i]; bool clear = !ratio || !zone_managed_pages(zone); unsigned long managed_pages = 0; for (j = i + 1; j < MAX_NR_ZONES; j++) { struct zone *upper_zone = &pgdat->node_zones[j]; （1）往上计算zone区总内存大小 managed_pages += zone_managed_pages(upper_zone); if (clear) zone->lowmem_reserve[j] = 0; else zone->lowmem_reserve[j] = managed_pages / ratio; (2)预留内存等于总内存/ratio } } } /* update totalreserve_pages */ calculate_totalreserve_pages(); } 计算方式图举例，如下：图来源于网络可以通过/proc/zoneinfo节点查看各个内存区域预留内存大小，参数protection读取的就是内存管理区中lowmem_reserve[]数组的值，lowmem_reserve[]数组的单位是页面。设置lowmem_reserved是为了防止页面分配器过度低从低端内存管理区中分配内存。下图中，ZONE_DMA32，ZONE_NORMAL对应的protection都为0，说明不需要做保护。在内存管理中，判断是否满足这次分配任务是通过__zone_watermark_ok来判断。 bool __zone_watermark_ok(struct zone *z, unsigned int order, unsigned long mark, int highest_zoneidx, unsigned int alloc_flags, long free_pages) { ...... if (free_pages <= min + z->lowmem_reserve[highest_zoneidx]) return false; ...... } z表示当前扫描的内存管理分区，highest_zoneidx表示这次分配请求首选的内存管理区，min为当前管理区的最低水位值，因此当发现剩余内存小于低水位+当前分区的预留内存，那么分配失败。每个内存管理区的lowmem_reserve[]可以通过调整lowmem_reserve_ratio节点的值来修改，最终还是通过该调用setup_per_zone_lowmem_reserve来实现。冷热页待补充内存规整伙伴系统以页的方式来管理物理内存，随着系统不断的运行，系统就会产生碎片，一旦形成大片的碎片，系统就无法分配连续的物理内存（对用户空间的进程无影响？），因此linux内核引入的内存规整技术，来处理内存碎片的问题。内存碎片可以分配内碎片和外碎片。内碎片：物理内存页里面的碎片。外碎片：物理内存页之间的碎片，造成无法分配连续物理页。基本原理在内存卡迁移章节中，内核定义了migrate_type用于描述迁移类型，主要有 - MIGRATE_MOVABLE:可移动，表示这个内存区域的页面可以自由被迁移，通常用于用户空间的虚拟内存或者支持虚拟机的内存管理场景。 - MIGRATE_RECALAIMABLE:不可移动，但页面可以被回收，例如包含缓存页，匿名页等。 - MIGRATE_UNMOVABLE:不可移动，例如内核代码，内核数据等。 T0时刻：处于迁移前，此时物理内存中有空闲内存，但是并不连续。 T1时刻：启动迁移，迁移分两个方向对zone分区进行遍历扫描，zone区域低地址往高地址扫描空闲的物理页，zone区域高地址到地址扫描可移动已分配的物理页，两个扫描器在中间相遇时结束，将可移动已分配的物理页迁移（拷贝）到空闲页中，释放原内存。 T2时刻：迁移后，脏页被集中到一起，空闲页被集中到一起。 Linux内核触发内存规整有3个途径 - 手动触发：echo 1 > proc/sys/vm/compact_memory，会触发内存规整。 - kcompactd内核线程：每个内存节点会创建一个kcompactd内核线程，名称为kcompactd0、kcompactd1等等。内存水位不够时，kcompactd守护线程会在后台唤醒，与kswapd线程类似。 - 直接内存规整：在内存分配不足时，直接触发compact。内存页面回收 Linux系统会将内存尽可能的都使用起来，如将剩余的内存作为文件缓存（page cache）从而提高系统的性能。当有更高优先级的任务需要分配内存发现内存不足时，会进行内存进行回收，将不常用的内存进行回收。内存回收不是简单的回收页面越多越好，因为系统中很多地方都是用空间换时间，如尽可能的使用内存作为设备交换的缓存，这样可以极大的提高系统运行效率。因此内存回收是系统在分配内存不足时，才会触发回收。对于用户空间来说，页可以分为匿名页分为文件页和匿名页，对于内核空间申请的内存来说，没有匿名页和文件页的划分，所以本章节描述的页面回收，回收的都是用户空间的内存。 - 文件页（磁盘缓存页）：与磁盘存在映射关系的内存页（文件背景），如进程代码段、文件映射页等，他们有对应的磁盘进行存储，要回收此类页面时，可将页面直接丢弃（回收），数据还能从磁盘中读取，这部分称为page cache。 - 匿名页：没有与磁盘存在映射关系（无文件背景），如堆、栈、数据段等，如果将此类数据直接丢弃将无法找回，因此要回收此类页面，需要将数据交换到指定磁盘空间存储（swap分区）。磁盘高速缓存的页面都是可以直接被丢弃回收的，但当磁盘缓存页是脏页面时，在丢弃回收前需要将其写回到磁盘中。匿名页是不可以丢弃的，因为磁盘中是没有对应的存储，因此要想回收这种类型的页面，需要将该页面的数据转储到指定磁盘空间中（称为swap分区），这个过程页称为页面交换（swap），显然这种交换的代价是相对较高一些。 Linux内核中除非页面被保留或上锁（特殊处理，避免回收），所有的磁盘高速缓存页面都可以回收，所有的匿名页面页可以被交换出去而回收。 LRU机制对于linux内存回收来说，LRU链表是关键，因为内存回收的整个过程都是处理LRU链表的收缩。LRU链表主要是堆页进行排序，将使用频率低的页放到链表尾部，使用频率高的放到链表头部；而内存回收就是将LRU链表中最近很少访问的尾部页框内容从内存转储到磁盘中（分为匿名页和文件页），然后将其页框释放到伙伴系统作为空闲内存使用。 LRU算法认为过去一段时间频繁使用的页面，在不久的将来可能会在此访问到，而很久没有使用的页面在未来短时间内也不会被访问到，因此在物理内存不够用的情况下，这样的页面成为被换出的最佳候选者。 LRU的基本原理是为每个物理页面绑定一个计数器，用以表示该页面的访问频度。操作系统内核进行页面回收是就根据页面的计数器值来确定要回收那些页面。 Linux内核对于LRU的实现主要是基于一对双向链表：active和inactive两类链表。经常被访问处于活跃状态的页面会被放在active链表上，不常使用的页面被放到inactive链表上。系统在执行过程中，页面会在active链表和inactive链表之间转移，在active链表中使用频率最低的将会移到链表尾部，再转移到不活跃链表中，最后换出页面。第二次机会法是在经典LRU链表算法基础上做了一些改进，在经典LRU链表算法中，新产生的页面被添加到LRU链表的开发，将LRU链表中现存的页面向后移动一个位置。当系统内存出现短缺是，LRU链表尾部的页面将会离开并经历换出。当系统再需要这些页面是，这些页面会重新置于LRU链表的开头，这样的设计只考虑的时间的先后顺序而没有考虑到页面是否频繁使用，而第二次机会法的改进就是避免经常使用的页面不会被置换出去，第二次机会法给页面设置一个访问状态位，在进行淘汰选择是，会先判断该状态是位为1，如果是则给他第二次机会，并清空该位，选择其他页面判断换出。 LRU链表内核中一共有5条LRU链表，如下： - LRU_INACTIVE_ANON:不活跃匿名页面链表 - LRU_ACTIVE_ANON:活跃匿名页面链表 - LRU_INACTIVE_FILE:不活跃文件映射页面链表 - LRU_ACTIVE_FILE:活跃文件映射页面链表 - LRU_UNEVICTABLE:不可回收页面链表 Linux内核分成5条链表，主要是当内存出现紧缺时优先换出文件映射的文件换出页面，因为文件页可能不需要重新刷回磁盘而直接进行回收，而匿名页是必须要写入交换区才能回收。Linux每个内存节点都维护一整套LRU链表，存储在pglist_data中。 typedef struct pglist_data { ..... struct lruvec __lruvec; ...... }; 5种不同类型的LRU链表 enum lru_list { LRU_INACTIVE_ANON = LRU_BASE, LRU_ACTIVE_ANON = LRU_BASE + LRU_ACTIVE, LRU_INACTIVE_FILE = LRU_BASE + LRU_FILE, LRU_ACTIVE_FILE = LRU_BASE + LRU_FILE + LRU_ACTIVE, LRU_UNEVICTABLE, NR_LRU_LISTS }; struct lruvec { struct list_head lists[NR_LRU_LISTS]; /* per lruvec lru_lock for memcg */ spinlock_t lru_lock; /* * These track the cost of reclaiming one LRU - file or anon - * over the other. As the observed cost of reclaiming one LRU * increases, the reclaim scan balance tips toward the other. */ unsigned long anon_cost; unsigned long file_cost; /* Non-resident age, driven by LRU movement */ atomic_long_t nonresident_age; /* Refaults at the time of last reclaim cycle */ unsigned long refaults[ANON_AND_FILE]; /* Various lruvec state flags (enum lruvec_flags) */ unsigned long flags; #ifdef CONFIG_LRU_GEN /* evictable pages divided into generations */ struct lru_gen_struct lrugen; /* to concurrently iterate lru_gen_mm_list */ struct lru_gen_mm_state mm_state; #endif #ifdef CONFIG_MEMCG struct pglist_data *pgdat; #endif ANDROID_VENDOR_DATA(1); }; 内存节点的描述数据结构种有一个成员变量lruvec指向这些链表，枚举类型变量lru_list列举出上述各种LRU链表类型，lruvec数据结构中定义了上述各种LRU类型链表。 linux内核使用有两个标志位来用于LRU机制的判断，分别是PG_active和PG_referenced， - PG_active：标志位指示了该页块应该在那个LRU链表，为1在active链表，0在inactive链表。 - PG_referenced：指示页框是否被使用，当页框被访问是，会置为1。 Linux中实现LRU链表之间的移动页面使用如下关键函数： - mark_page_accessed()：访问一个页面时，调用该函数修改PG_active和PG_refenrenced - page_refenrenced():系统在进行扫描页面时，调用该函数判断PG_referenced位，如果该位被置位但是长时间没有被再次访问，该位就会被清除。 - active_page():将页面放到active链表上去。 shrink_active_list():将页面移动到inactive链表上去。 LRU缓存系统内核根据其活跃程度将页面来active和inactive链表之间来回移动，随着当前的硬件系统大多都是多cpu处理器，所以需要保证多核之间的并发访问，因此需要通过自旋锁来防止并发操作。由于自旋锁会导致系统性能下降，为了减少其影响，于是内核引入了LRU缓存，每次处理页面移动时，进行批量处理，当累计到一定数量后才会统一迁移，这样就能降低锁的竞争，提升系统的性能。LRU缓存使用的时struct pagevec结构。 include/linux/pagevec.h #define PAGEVEC_SIZE 15 struct pagevec { unsigned char nr; bool percpu_pvec_drained; struct page *pages[PAGEVEC_SIZE]; //存放14个page }; 页面批量最终通过list_add函数添加到LRU链表中，list_add会将成员添加到链表头。页面回收时机系统中通常以下3种机制会触发进行页面回收（实际上与水位有关系，见2.4.2.4）三种方式触发页面回收，最终都会调用shrink_node： - 快速回收：快速路径做内存分配时失败，调用node_reclaim进行页面回收，这个时候不回收脏文件页，加速内存分配速度，避免回写磁盘耗时的IO操作。 - 异步回收（Kswapd内核线程）：慢速路径内存分配时，会唤醒内核线程，该线程就会在后台进行页面回收处理。直接回收：慢速路径内存分配时，经过多轮尝试依旧无法分配内存（水位低于min区），就会触发进行直接回收。（同步）回收策略内存的回收并不是回收的越多越好，系统中很多都会用到物理内存，系统尽可能的用空间换时间最大化提高运行速率，比如对磁盘IO的读写使用物理内存缓存。各个页面的回收效率是不一样的，比如回收干净的文件页效率是最高的，匿名页和脏文件夹都需要刷写数据到磁盘。综上，系统需要确定一下回收的策略。如要回收多少页面合适？回收匿名页面还是文件页面等等。 struct scan_control 该结构体描述了与页面相关的信息struct scan_control。 struct scan_control { unsigned long nr_to_reclaim; 需要回收的页面数量 nodemask_t *nodemask; 内存节点掩码（确定回收的节点），如果为NULL，则是所有节点 struct mem_cgroup *target_mem_cgroup;目标memcg，如果针对整个zone进行，则为NULL unsigned int may_writepage:1;允许文件脏页写回磁盘的方式回收 unsigned int may_unmap:1;允许取消页面映射的方式回收 unsigned int may_swap:1;允许使用匿名页交换swap分区方式回收 s8 order;申请分配内存的阶 s8 priority;扫描LRU的优先级，用于计算每次扫描页面的数量 s8 reclaim_idx; gfp_t gfp_mask; unsigned long nr_scanned;统计扫描过的非活动页面总数 unsigned long nr_reclaimed;统计回收了页面的总数 }; scan_balance 回收的页要么是文件页要么是匿名页，系统中对于页面回收的类型有四种基本策略。 enum scan_balance { SCAN_EQUAL, 计算出扫描值原样使用 SCAN_FRACT, 按分数的应用计算扫描值 SCAN_ANON, 只回收匿名页 SCAN_FILE, 只回收文件页 }; scan_control只是一个需求，真正要怎么回收还要综合考虑，根据get_scan_count来把控。 /* * Determine how aggressively the anon and file LRU lists should be * scanned. The relative value of each set of LRU lists is determined * by looking at the fraction of the pages scanned we did rotate back * onto the active list instead of evict. * * nr[0] = anon inactive pages to scan; nr[1] = anon active pages to scan * nr[2] = file inactive pages to scan; nr[3] = file active pages to scan */ static void get_scan_count(struct lruvec *lruvec, struct scan_control *sc, unsigned long *nr) 在确定每个LRU链表的扫描力度之前，get_scan_count根据scan_control参数以及其他参数综合判断决定扫描的策略，从上可知unsigned long *nr数组分别表示每个LRU链表的扫描力度，get_scan_count就是用于填充nr的数组。那其策略还会受什么影响了？会受swappiness影响。 swappiness:决定着匿名页交换到swap分区的频率，值的范围0~100（默认值一般60）。值越高，则匿名页交换到swap分区的概率就越高。当值为0时，那就表示不扫描回收匿名页，只回收文件页（当然不绝对，当系统确实已经分配不到内存了，就不会再管swappiness值）。当值为100时，匿名页的回收优先级就等于文件页的优先级的。系统默认设置的值为60，所以系统更倾向与回收文件页。前面说了回收文件页的代价更更低，因为文件页大部分页都是干净页，可直接释放内存，不需要刷回到磁盘。可以通过节点/proc/sys/vm/swappiness获取或调节swappiness值。 root@TinaLinux:/# cat /proc/sys/vm/swappiness 60 快速页面回收 static int __node_reclaim(struct pglist_data *pgdat, gfp_t gfp_mask, unsigned int order) { /* Minimum pages needed in order to stay on node */ const unsigned long nr_pages = 1 << order; struct task_struct *p = current; unsigned int noreclaim_flag; （1）设置回收策略 struct scan_control sc = { .nr_to_reclaim = max(nr_pages, SWAP_CLUSTER_MAX),回收页面数量，一般是32。 .gfp_mask = current_gfp_context(gfp_mask), .order = order, .priority = NODE_RECLAIM_PRIORITY, .may_writepage = !!(node_reclaim_mode & RECLAIM_WRITE), 如果没有使用NUMA架构，node_reclaim_mode=0,所以不允许使用写回磁盘方式回收页面。 .may_unmap = !!(node_reclaim_mode & RECLAIM_UNMAP), 不允许使用取消清除页表的方式回收页面。 .may_swap = 1, .reclaim_idx = gfp_zone(gfp_mask), 指定zone进行页面回收 }; unsigned long pflags; trace_mm_vmscan_node_reclaim_begin(pgdat->node_id, order, sc.gfp_mask); cond_resched(); psi_memstall_enter(&pflags); fs_reclaim_acquire(sc.gfp_mask); /* * We need to be able to allocate from the reserves for RECLAIM_UNMAP * and we also need to be able to write out pages for RECLAIM_WRITE * and RECLAIM_UNMAP. */ noreclaim_flag = memalloc_noreclaim_save(); p->flags |= PF_SWAPWRITE; set_task_reclaim_state(p, &sc.reclaim_state); if (node_pagecache_reclaimable(pgdat) > pgdat->min_unmapped_pages) { /* * Free memory by calling shrink node with increasing * priorities until we have enough memory freed. */ do { shrink_node(pgdat, &sc); （2）通过sc控制该节点进行内存回收。 } while (sc.nr_reclaimed < nr_pages && --sc.priority >= 0); （3）回收的页框数大于本次分配任务的页框数或者sc.priority优先级降为0即完成页面回收。 } set_task_reclaim_state(p, NULL); current->flags &= ~PF_SWAPWRITE; memalloc_noreclaim_restore(noreclaim_flag); fs_reclaim_release(sc.gfp_mask); psi_memstall_leave(&pflags); trace_mm_vmscan_node_reclaim_end(sc.nr_reclaimed); return sc.nr_reclaimed >= nr_pages; } 快速内存回收需要根据node_reclaim_mode来决定unmap、writeback操作，arm64架构上通常是单节点所以该值为0，因此不能unmap就相当于不能释放页表，不能writeback相当于不能释放脏页和匿名页，那实际上就只能回收干净的文件页了，同时快速内存回收指定了zone区进行回收。 kswpad回收待补充直接页面回收待补充 shrink_node 待补充

🕒 2023-07-22 📁 内存管理 👤 laumy 🔥 1265 热度
内存初始化之物理内存初始化

恒等映射与内核镜像映射__create_page_tables preserve_boot_args：保持启动参数到boot_args[]数组 set_cpu_boot_maode_flag：设置关于cpu boot相关的全局变量 __create_page_tables：创建恒等映射页表，内核映像映射页表 __cpu_setup：为打开mmu做一些cpu相关的初始化 __primary_switch：启动mmu，并跳转start_kernel()函数恒等映射（text：__idmap_text_start~__idmap_text_end/data：idmap_pg_dir~idmap_pg_end）一旦启动MMU就需要使用虚拟地址，现代处理器大多数是多级流水线，处理器会提前预取多条指令到流水线中，打开MMU时，这些指令都是物理地址预取的；在MMU开启后，将以虚拟地址访问，这样就会出错，所以引入了“恒等映射”，即在过渡阶段的代码，虚拟地址和物理地址相等。恒等映射完成后，就启动MMU，进入虚拟地址访问阶段。恒等映射的代码在 __idmap_text_start~__idmap_text_end，可以从System.map文件中查询到。 kernel/build/System.map ffffffc00899b000 T __idmap_text_start ffffffc00899b000 T init_kernel_el ffffffc00899b00c t init_el1 ffffffc00899b034 t init_el2 ffffffc00899b1e8 t __cpu_stick_to_vhe ffffffc00899b1f8 t set_cpu_boot_mode_flag ffffffc00899b21c T secondary_holding_pen ffffffc00899b240 t pen ffffffc00899b254 T secondary_entry ffffffc00899b260 t secondary_startup ffffffc00899b27c t __secondary_switched ffffffc00899b310 t __secondary_too_slow ffffffc00899b31c T __enable_mmu ffffffc00899b37c T __cpu_secondary_check52bitva ffffffc00899b380 t __no_granule_support ffffffc00899b3a4 t __relocate_kernel ffffffc00899b3ec t __primary_switch ffffffc00899b428 t enter_vhe ffffffc00899b460 T cpu_resume ffffffc00899b488 T cpu_do_resume ffffffc00899b52c T idmap_cpu_replace_ttbr1 ffffffc00899b560 t __idmap_kpti_flag ffffffc00899b564 T idmap_kpti_install_ng_mappings ffffffc00899b5a0 t do_pgd ffffffc00899b5b8 t next_pgd ffffffc00899b5c8 t skip_pgd ffffffc00899b608 t walk_puds ffffffc00899b610 t next_pud ffffffc00899b614 t walk_pmds ffffffc00899b61c t do_pmd ffffffc00899b634 t next_pmd ffffffc00899b644 t skip_pmd ffffffc00899b654 t walk_ptes ffffffc00899b65c t do_pte ffffffc00899b680 t skip_pte ffffffc00899b690 t __idmap_kpti_secondary ffffffc00899b6d8 T __cpu_setup ffffffc00899b7dc T __idmap_text_end 恒等映射目的就是为__idmap_text_start~__idmap_text_end这段代码创建一个映射页表，使其虚拟地址和物理地址是相等的。在vmlinux.lds.S中，事先已经分配了IDMAP_DIR_SIZE的空间用于存储页表，通常器页表为3个连续的4KB页面，分别对于PGD,PUD,PMD页表，这里没有使用PTE，所以粒度是2MB的大小。 arch/arm64/kernel/vmlinux.lds.S idmap_pg_dir = .; . += IDMAP_DIR_SIZE; idmap_pg_end = .; 粗粒度的内核映像映射（text: kernel_text / data：init_pg_dir~init_pg_end）之所以要创建第二个页表，是因为cpu刚启动时，物理内存一般都在低地址（不过超过256TB），恒等映射的地址实际也在用户空间，即MMU启用后idmap_pg_dir会填入TTBR0，而内核空间链接地址（虚拟地址）都是在高地址，需要填入TTBR1，因此需要再创建一张表，映射整个内核镜像，且虚拟地址空间是再高地址0xffff xxxx xxxx xxxx arch/arm64/kernel/head.S /* * Map the kernel image (starting with PHYS_OFFSET). */ ///调用map_memory宏建立整个内核镜像代码段的映射页表； /************************************************************************** * 为什么要建第二张表？ * CPU刚启动时，物理内存一般都在低地址(不会超过256T大小)，恒等映射的地址实际在用户空间了， * 即MMU启用后idmap_pg_dir会填入TTBR0; * 而内核空间的链接地址都是在高地址(内核空间在高地址)，需要填入TTBR1； * 因此，这里再建一张表，映射整个内核镜像，且虚拟地址空间是在高地址区0xffffxxxx xxxx xxxx * 注：init_pg_dir和idmap_pg_dir两个页表映射区别： * (1)init_pg_dir映射的虚拟地址在高位0xffff xxxx xxxx xxxx; * idmap_pg_dir映射的虚拟地址在低位0x0000 xxxx xxxx xxxx; * MMU启用后，init_pg_dir填入TTBR1,idmap_pg_dir填入TTBR0； * (2)init_pg_dir映射大小是整个内核镜像，idmap_pg_dir映射2M, 只是内存访问过渡，成功开启MMU即可； ***************************************************************************/ adrp x0, init_pg_dir mov_q x5, KIMAGE_VADDR // compile time __va(_text) add x5, x5, x23 // add KASLR displacement mov x4, PTRS_PER_PGD adrp x6, _end // runtime __pa(_end) adrp x3, _text // runtime __pa(_text) sub x6, x6, x3 // _end - _text add x6, x6, x5 // runtime __va(_end) map_memory x0, x1, x5, x6, x7, x3, x4, x10, x11, x12, x13, x14 fixmap映射先创建好页表，建立好虚拟地址到物理地址的映射关系。 Linux内核要访问物理内存，一旦开启MMU后，就只能通过虚拟地址查询页表找到物理地址进行访问，上一章节中建立恒等映射和粗粒度内核映像映射的页表，因此只能保证内核镜像正常访问。如果要解析DTB，访问设备IO等依然是无法访问的，因为查询不到对应的页表。因此内核引入了fixmap机制，就是事先分配一段虚拟地址空间，然后给定其虚拟地址创建好页表，页表中的表项最后一级指向的物理页帧号先不填充，等到实际要访问那段物理内存后再将其填充，内后通过fixmap这段虚拟地址范围就可以通过查询页表访问到物理内存。 Fixmap最关键要实现的目的就是将一段空间的虚拟地址与物理地址对应上，linux内核通过虚拟地址访问到物理空间，那既然是通过虚拟地址访问到物理地址，那必须构建填充这段虚拟地址到物理地址的页表，这样Linux内核经过MMU利用查找页表找到对应的物理地址进行访问。 fixmap空间分类 Fixmap是一段固定范围的虚拟地址，在其在编译的时候就确定好了。下面是添加一段打印可以查看FIXMAP区域的各小段的地址范围。 void __init early_fixmap_init(void) { pgd_t *pgdp; p4d_t *p4dp, p4d; pud_t *pudp; pmd_t *pmdp; unsigned long addr = FIXADDR_START; pgdp = pgd_offset_k(addr); p4dp = p4d_offset(pgdp, addr); printk(\"FIX_HOLE :0x%lx\\n\",__fix_to_virt(FIX_HOLE)); printk(\"FIX_FDT_END :0x%lx\\n\",__fix_to_virt(FIX_FDT_END)); printk(\"FIX_FDT :0x%lx\\n\",__fix_to_virt(FIX_FDT)); printk(\"FIX_EARLYCON_MEM_BASE:0x%lx\\n\",__fix_to_virt(FIX_EARLYCON_MEM_BASE)); printk(\"FIX_BTMAP_END :0x%lx\\n\",__fix_to_virt(FIX_BTMAP_END)); printk(\"FIX_BTMAP_BEGIN :0x%lx\\n\",__fix_to_virt(FIX_BTMAP_BEGIN)); printk(\"FIX_PTE :0x%lx\\n\",__fix_to_virt(FIX_PTE)); printk(\"FIX_PMD :0x%lx\\n\",__fix_to_virt(FIX_PMD)); printk(\"FIX_PUD :0x%lx\\n\",__fix_to_virt(FIX_PUD)); printk(\"FIX_PGD :0x%lx\\n\",__fix_to_virt(FIX_PGD)); printk(\"FIXADDR_START~TOP :0x%lx - 0x%lx (%6ld KB)\\n\", FIXADDR_START,FIXADDR_TOP,(FIXADDR_TOP-FIXADDR_START) >> 10); ....... } [ 0.000000] FIX_HOLE :0xfffffffdfe000000 //0x000007FFFFFFEFF0 [ 0.000000] FIX_FDT_END :0xfffffffdfdfff000 [ 0.000000] FIX_FDT :0xfffffffdfdc00000 //0x000007FFFFFFEFEE [ 0.000000] FIX_EARLYCON_MEM_BASE:0xfffffffdfdbff000 [ 0.000000] FIX_BTMAP_END :0xfffffffdfdbf9000 [ 0.000000] FIX_BTMAP_BEGIN :0xfffffffdfda3a000 [ 0.000000] FIX_PTE :0xfffffffdfda39000 [ 0.000000] FIX_PMD :0xfffffffdfda38000 [ 0.000000] FIX_PUD :0xfffffffdfda37000 [ 0.000000] FIX_PGD :0xfffffffdfda36000 //0x000007FFFFFFEFED [ 0.000000] FIXADDR_START~TOP :0xfffffffdfdbf9000 - 0xfffffffdfe000000 ( 4124 KB) 上面0xfffffffdfdbf9000 - 0xfffffffdfe000000这段虚拟地址范围就是fixed map区域，这段区域可以通过FIXADDR_START和FIXADDR_TOP来确定。Fixmap虚拟地址平均分成两个部分，两个部分permanent fixed addresses和temporary fixed addresses。permanent fixed addresses是永久映射，temporary fixed addresses是临时映射。永久映射是指在建立的映射关系在kernel阶段不会改变，仅供特定模块一直使用。临时映射就是模块使用前创建映射，使用后解除映射。fixmap区域又被继续细分，分配给不同模块使用。kernel中定义枚举类型作为index，根据index可以计算在fixmap区域的虚拟地址。 arch/arm64/include/asm/fixmap.h enum fixed_addresses { FIX_HOLE, /* * Reserve a virtual window for the FDT that is 2 MB larger than the * maximum supported size, and put it at the top of the fixmap region. * The additional space ensures that any FDT that does not exceed * MAX_FDT_SIZE can be mapped regardless of whether it crosses any * 2 MB alignment boundaries. * * Keep this at the top so it remains 2 MB aligned. */ #define FIX_FDT_SIZE (MAX_FDT_SIZE + SZ_2M) FIX_FDT_END, FIX_FDT = FIX_FDT_END + FIX_FDT_SIZE / PAGE_SIZE - 1, FIX_EARLYCON_MEM_BASE, FIX_TEXT_POKE0, #ifdef CONFIG_ACPI_APEI_GHES /* Used for GHES mapping from assorted contexts */ FIX_APEI_GHES_IRQ, FIX_APEI_GHES_SEA, #ifdef CONFIG_ARM_SDE_INTERFACE FIX_APEI_GHES_SDEI_NORMAL, FIX_APEI_GHES_SDEI_CRITICAL, #endif #endif /* CONFIG_ACPI_APEI_GHES */ #ifdef CONFIG_UNMAP_KERNEL_AT_EL0 FIX_ENTRY_TRAMP_TEXT3, FIX_ENTRY_TRAMP_TEXT2, FIX_ENTRY_TRAMP_TEXT1, FIX_ENTRY_TRAMP_DATA, #define TRAMP_VALIAS (__fix_to_virt(FIX_ENTRY_TRAMP_TEXT1)) #endif /* CONFIG_UNMAP_KERNEL_AT_EL0 */ __end_of_permanent_fixed_addresses, /* * Temporary boot-time mappings, used by early_ioremap(), * before ioremap() is functional. */ #define NR_FIX_BTMAPS (SZ_256K / PAGE_SIZE) #define FIX_BTMAPS_SLOTS 7 #define TOTAL_FIX_BTMAPS (NR_FIX_BTMAPS * FIX_BTMAPS_SLOTS) FIX_BTMAP_END = __end_of_permanent_fixed_addresses, FIX_BTMAP_BEGIN = FIX_BTMAP_END + TOTAL_FIX_BTMAPS - 1, /* * Used for kernel page table creation, so unmapped memory may be used * for tables. */ FIX_PTE, FIX_PMD, FIX_PUD, FIX_PGD, __end_of_fixed_addresses }; #define FIXADDR_SIZE (__end_of_permanent_fixed_addresses << PAGE_SHIFT) #define FIXADDR_START (FIXADDR_TOP - FIXADDR_SIZE) fixmap初始化前面描述了，fixmap就是让一段固定的虚拟地址空间与一段物理空间建立映射，以便linux内核通过虚拟地址才能访问到对应物理地址的空间数据，虚拟地址到物理地址的转换是通过mmu查询页表得来的，因此需要构建填充虚拟地址到物理地址转换的页表。在linux内核中，页表存储通过定义了3个全局数组bm_pud,bm_pmd,bt_pte来存储。因此early_fixmap_init的目的来填充这几个数组（页表）。 static pte_t bm_pte[PTRS_PER_PTE] __page_aligned_bss; static pmd_t bm_pmd[PTRS_PER_PMD] __page_aligned_bss __maybe_unused; static pud_t bm_pud[PTRS_PER_PUD] __page_aligned_bss __maybe_unused; 没有建立PGD，PGD在swapper_pg_dir中，在内核镜像的数据段 PTRS_PER_PTE/PMD/PUD为页表entry的数目 #define PTRS_PER_PTE (1 << (PAGE_SHIFT - 3)) arch/arm64/mm/mmu.c void __init early_fixmap_init(void) { pgd_t *pgd; p4d_t *p4dp, p4d; pud_t *pud; pmd_t *pmd; unsigned long addr = FIXADDR_START; （1）FIXADDR_START定义了fixedmap区域的起始地址。 pgdp = pgd_offset_k(addr); p4dp = p4d_offset(pgdp, addr);//3级页表中p4dp=pgd p4d = READ_ONCE(*p4dp);//读表项中的内容（2）获取addr对应的pgd全局页表表项地址，页表是swapper_pg_dir的空间 if (CONFIG_PGTABLE_LEVELS > 3 && !(pgd_none(*pgd) || pgd_page_paddr(*pgd) == __pa_symbol(bm_pud))) { pud = pud_offset_kimg(pgd, addr); } else { (3)因为是3级页表p4d_node=0，因此不会进入这里，也就是不会使用bm_pud if (p4d_none(p4d)) __p4d_populate(p4dp, __pa_symbol(bm_pud), P4D_TYPE_TABLE); pud = fixmap_pud(addr); (4)获取addr在PUD页表项中的偏移地址，这里是3级页表，所以pud=pgdp } if (pud_none(*pud)) __pud_populate(pud, __pa_symbol(bm_pmd), PMD_TYPE_TABLE); （5）将bm_pmd的物理地址写到pgd页表对应表项中 pmd = fixmap_pmd(addr); （6）获取addr在对应页表中表项的地址（虚拟地址）。 __pmd_populate(pmd, __pa_symbol(bm_pte), PMD_TYPE_TABLE); （7）将bm_pte的物理地址写到pmd页表中。 } TIPS:当使用3级页表时，内核如何判断是否需要创建PUD页表？ arch/arm64/include/asm/pgtable-types.h #if CONFIG_PGTABLE_LEVELS == 2 #include <asm-generic/pgtable-nopmd.h> #elif CONFIG_PGTABLE_LEVELS == 3 #include <asm-generic/pgtable-nopud.h> #elif CONFIG_PGTABLE_LEVELS == 4 #include <asm-generic/pgtable-nop4d.h> #endif 从上可知，页表是3级页表时，包含的pud相关的头文件时#include <asm-generic/pgtable-nopud.h> include/asm-generic/pgtable-nopud.h static inline int p4d_none(p4d_t p4d) { return 0; } //直接返回0 static inline int p4d_bad(p4d_t p4d) { return 0; } static inline int p4d_present(p4d_t p4d) { return 1; } static inline void p4d_clear(p4d_t *p4d) { } #define p4d_populate(mm, p4d, pud) do { } while (0) #define p4d_populate_safe(mm, p4d, pud) do { } while (0) #define set_p4d(p4dptr, p4dval) set_pud((pud_t *)(p4dptr), (pud_t) { p4dval }) static inline pud_t *pud_offset(p4d_t *p4d, unsigned long address) { return (pud_t *)p4d; } #define pud_offset pud_offset #define pud_val(x) (p4d_val((x).p4d)) #define __pud(x) ((pud_t) { __p4d(x) }) #define p4d_page(p4d) (pud_page((pud_t){ p4d })) #define p4d_pgtable(p4d) ((pud_t *)(pud_pgtable((pud_t){ p4d }))) #define pud_alloc_one(mm, address) NULL #define pud_free(mm, x) do { } while (0) #define pud_free_tlb(tlb, x, a) do { } while (0) #undef pud_addr_end #define pud_addr_end(addr, end) (end) 实际上，early_fixmap_init只是建立了一个映射的框架，实际的物理地址和虚拟地址的映射关系是没有填充的，这个需要实际使用的时候再去填充对应的pte entry。 bm_pud/bm_pmd/bm_pte是全局数组（全局数据段），该阶段访问这几个全局数组的虚拟地址能够可以通过mmu转化为物理地址，因为这几个变量是属于内核映像中，在上一章节中内核镜像中的所有包括数据段、代码段等都可以进行访问了，因此这几个全局数组的虚拟地址是不需要映射的。 fixmap相关函数 #define pte_offset_phys(dir,addr) (pmd_page_paddr(READ_ONCE(*(dir))) + pte_index(addr) * sizeof(pte_t)) //查找虚拟地址对应PTE的物理地址（基地址），也就是对应PMD条目中的值。 #define pte_set_fixmap(addr) ((pte_t *)set_fixmap_offset(FIX_PTE, addr)) //获取addr（物理地址）对应的虚拟地址，其虚拟地址在FIX_PTE这个范围（建立映射）。 #define pte_set_fixmap_offset(pmd, addr) pte_set_fixmap(pte_offset_phys(pmd, addr)) //获取addr在PTE页表项的虚拟地址，其虚拟地址范围在FIX_PTE这个范围（建立映射）。 #define pte_clear_fixmap() clear_fixmap(FIX_PTE) //清除FIX_PTE虚拟地址的映射 #define pmd_set_fixmap(addr) ((pmd_t *)set_fixmap_offset(FIX_PMD, addr)) #define pmd_set_fixmap_offset(pud, addr) pmd_set_fixmap(pmd_offset_phys(pud, addr)) #define pmd_clear_fixmap() clear_fixmap(FIX_PMD) #define pud_set_fixmap(addr) ((pud_t *)set_fixmap_offset(FIX_PUD, addr)) #define pud_set_fixmap_offset(p4d, addr) pud_set_fixmap(pud_offset_phys(p4d, addr)) #define pud_clear_fixmap() clear_fixmap(FIX_PUD) #define pgd_set_fixmap(addr) ((pgd_t *)set_fixmap_offset(FIX_PGD, addr)) #define pgd_clear_fixmap() clear_fixmap(FIX_PGD) fixmap io映射 static void __iomem *prev_map[FIX_BTMAPS_SLOTS] __initdata; static unsigned long prev_size[FIX_BTMAPS_SLOTS] __initdata; static unsigned long slot_virt[FIX_BTMAPS_SLOTS] __initdata; void __init early_ioremap_setup(void) { int i; for (i = 0; i < FIX_BTMAPS_SLOTS; i++) if (WARN_ON(prev_map[i])) break; for (i = 0; i < FIX_BTMAPS_SLOTS; i++) slot_virt[i] = __fix_to_virt(FIX_BTMAP_BEGIN - NR_FIX_BTMAPS*i); } Ioremap的空间存放再slot_vir数组中，其虚拟地址空间每一个跨度为NR_FIX_BITMAPS。实际进行IO映射的时候，会调用到__early_ioremap函数，在该函数中回去填充pte entry，这样虚拟地址和io设备的物理地址就匹配上了。 fixmap DTB映射 arch/arm64/kernel/setup.c setup_machine_fdt-> void *__init fixmap_remap_fdt(phys_addr_t dt_phys, int *size, pgprot_t prot) { const u64 dt_virt_base = __fix_to_virt(FIX_FDT); //从FIXMAP中获取设备树的虚拟地址 int offset; void *dt_virt; /* * Check whether the physical FDT address is set and meets the minimum * alignment requirement. Since we are relying on MIN_FDT_ALIGN to be * at least 8 bytes so that we can always access the magic and size * fields of the FDT header after mapping the first chunk, double check * here if that is indeed the case. */ BUILD_BUG_ON(MIN_FDT_ALIGN < 8); if (!dt_phys || dt_phys % MIN_FDT_ALIGN) return NULL; /* * Make sure that the FDT region can be mapped without the need to * allocate additional translation table pages, so that it is safe * to call create_mapping_noalloc() this early. * * On 64k pages, the FDT will be mapped using PTEs, so we need to * be in the same PMD as the rest of the fixmap. * On 4k pages, we\'ll use section mappings for the FDT so we only * have to be in the same PUD. */ BUILD_BUG_ON(dt_virt_base % SZ_2M); BUILD_BUG_ON(__fix_to_virt(FIX_FDT_END) >> SWAPPER_TABLE_SHIFT != __fix_to_virt(FIX_BTMAP_BEGIN) >> SWAPPER_TABLE_SHIFT); offset = dt_phys % SWAPPER_BLOCK_SIZE; dt_virt = (void *)dt_virt_base + offset; /* map the first chunk so we can read the size from the header */ create_mapping_noalloc(round_down(dt_phys, SWAPPER_BLOCK_SIZE), dt_virt_base, SWAPPER_BLOCK_SIZE, prot); //根据提供的物理地址和虚拟地址设置页表entry，建立dbt物理地址到fixmap中虚拟地址的映射 if (fdt_magic(dt_virt) != FDT_MAGIC) return NULL; //获取dtb文件大小 *size = fdt_totalsize(dt_virt); //DTB的大小不能超过2M if (*size > MAX_FDT_SIZE) return NULL; //如果DTB文件结尾的地址空间超过了上面建立的2M地址范围，需要紧接这再映射2M地址空间。 if (offset + *size > SWAPPER_BLOCK_SIZE) create_mapping_noalloc(round_down(dt_phys, SWAPPER_BLOCK_SIZE), dt_virt_base, round_up(offset + *size, SWAPPER_BLOCK_SIZE), prot); return dt_virt; } TIPS：如何打开linux内核pr_debug相关的打印打开pr_debug的打印（1）将Default console loglevel 设置到8 Kernel hacking > printk and dmesg options (8)Default console loglevel (1-15) （2）在对应的模块上编译添加-DDEBUG宏 diff --git a/drivers/of/Makefile b/drivers/of/Makefile index e0360a44306e..25bc584536b3 100644 --- a/drivers/of/Makefile +++ b/drivers/of/Makefile +ccflags-y :=-DDEBUG Memblock Linux内核使用伙伴系统管理内存，在伙伴系统之前，内核通过memblock来管理。在系统启动阶段，使用memblock记录理内存的使用情况，可以分成好几块。 - 永久分配给系统内核：内核镜像占用的部分，如代码、数据段等；设备树DTB等 - 预留给外设的连续内存：如GPU/Camera/多核共享等需要预留大量连续内存。 - 其他部分：以上的剩余部分内存，需要进行内存管理。 Memblock将以上内存按功能划分为若干内存区，使用不同的类型存放在memory和reserved两个集合中，memory即动态内存，reserved即静态分配的内存。获取物理内存大小在设备树中，使用节点名称为memory来描述内存信息，如果系统中有多个内存范围，那么device tree中可能会创建多个内存节点，或者一个单独的内存节点通过reg属性指定内存的访问。假设一个64位系统具有以下的物理内存块： - RAM:起始地址0x0,长度0x80000000(2GB) - RAM：起始地址0x100000000,长度0x100000000(4GB) 方法一 memory@0 { device_type = \"memory\"; reg = < 0x000000000 0x00000000 0x00000000 0x80000000 0x000000001 0x00000000 0x00000001 0x00000000>; }; 第一个整数（0x00000000）：表示物理地址的高32位。第二个整数（0x00000000）：表示物理地址的低32位。在这个例子中，物理地址为0x00000000。第三个整数（0x00000000）：表示大小的高32位。第四个整数（0x80000000）：表示大小的低32位。在这个例子中，大小为0x80000000，即2GB。第五个整数（0x00000001）：表示物理地址的高32位。第六个整数（0x00000000）：表示物理地址的低32位。在这个例子中，物理地址为0x100000000。第七个整数（0x00000001）：表示大小的高32位。第八个整数（0x00000000）：表示大小的低32位。在这个例子中，大小为0x100000000，即4GB。方法二 memory@0 { device_type = \"memory\"; reg = < 0x000000000 0x00000000 0x00000000 0x80000000>; }; memory@100000000 { device_type = \"memory\"; reg = < 0x000000001 0x00000000 0x00000001 0x00000000>; }; 有些平台中在设备树中有时并没有去描述该节点，那是因为在uboot启动的时候会创建或改写该节点，实际的物理内存大小可能在boot0阶段就探测到了。 int fdt_fixup_memory_banks(void *blob, u64 start[], u64 size[], int banks) { int err, nodeoffset; int len, i; u8 tmp[MEMORY_BANKS_MAX * 16]; /* Up to 64-bit address + 64-bit size */ if (banks > MEMORY_BANKS_MAX) { printf(\"%s: num banks %d exceeds hardcoded limit %d.\" \" Recompile with higher MEMORY_BANKS_MAX?\\n\", __FUNCTION__, banks, MEMORY_BANKS_MAX); return -1; } err = fdt_check_header(blob); if (err < 0) { printf(\"%s: %s\\n\", __FUNCTION__, fdt_strerror(err)); return err; } /* find or create \"/memory\" node. */ nodeoffset = fdt_find_or_add_subnode(blob, 0, \"memory\"); if (nodeoffset < 0) return nodeoffset; err = fdt_setprop(blob, nodeoffset, \"device_type\", \"memory\", sizeof(\"memory\")); if (err < 0) { printf(\"WARNING: could not set %s %s.\\n\", \"device_type\", fdt_strerror(err)); return err; } for (i = 0; i < banks; i++) { if (start[i] == 0 && size[i] == 0) break; } banks = i; if (!banks) return 0; for (i = 0; i < banks; i++) if (start[i] == 0 && size[i] == 0) break; banks = i; len = fdt_pack_reg(blob, tmp, start, size, banks); err = fdt_setprop(blob, nodeoffset, \"reg\", tmp, len); if (err < 0) { printf(\"WARNING: could not set %s %s.\\n\", \"reg\", fdt_strerror(err)); return err; } return 0; 所以，在设备树中找不到描述，可以在系统启动阶段在uboot阶段查看内存节点。 => fdt list /memory memory { reg = <0x00000000 0x40000000 0x00000000 0x80000000>; device_type = \"memory\"; }; 物理地址起始：0x40000000 物理内存大小：0x80000000（2GB）内核调用early_init_dt_scan_nodes扫描DTB，然后将物理内存同故宫memblock_add添加到memblock中进行管理。 drivers/os/fdt.c void __init early_init_dt_scan_nodes(void) { int rc = 0; /* Initialize {size,address}-cells info */ of_scan_flat_dt(early_init_dt_scan_root, NULL); /* Retrieve various information from the /chosen node */ rc = of_scan_flat_dt(early_init_dt_scan_chosen, boot_command_line); if (!rc) pr_warn(\"No chosen node found, continuing without\\n\"); /* Setup memory, calling early_init_dt_add_memory_arch */ of_scan_flat_dt(early_init_dt_scan_memory, NULL); early_init_dt_add_memory_arch(base, size); memblock_add(base, size); //从设备树中读取到物理内存的地址和大小，添加到memblock中 /* Handle linux,usable-memory-range property */ early_init_dt_check_for_usable_mem_range(); } 管理结构体第一层：struct memblock，定义一个全局变量，用来维护所有的物理内存；第二层：struct memblock_type，系统中内存类型，包括可分配使用的内存和保留的内存；第三层：struct memblock_region，描述具体内存区域，包含在struct memblock_type中的regions数组中，最多存放128个。 mm/memblock.c static struct memblock_region memblock_memory_init_regions[INIT_MEMBLOCK_REGIONS] __initdata_memblock; static struct memblock_region memblock_reserved_init_regions[INIT_MEMBLOCK_RESERVED_REGIONS] __initdata_memblock; struct memblock memblock __initdata_memblock = { .memory.regions = memblock_memory_init_regions, .memory.cnt = 1, /* empty dummy entry */ .memory.max = INIT_MEMBLOCK_REGIONS, .memory.name = \"memory\", .reserved.regions = memblock_reserved_init_regions, .reserved.cnt = 1, /* empty dummy entry */ .reserved.max = INIT_MEMBLOCK_RESERVED_REGIONS, .reserved.name = \"reserved\", .bottom_up = false, .current_limit = MEMBLOCK_ALLOC_ANYWHERE, }; 定义了memblock全局变量，因此是不需要初始化的，在定义的时候就进行了初始化。regions指向的也是静态全局的数组，数组的大小为INIT_MEMBLOCK_REGIONS（128），在实际代码中，可以看到，当超过这个数组时，这个数组将会进行动态扩大。 memblock主要接口函数 Memblock系统提供一些列接口供内核模块使用，包括内存区块的添加、预留、内存申请等功能。 - memblock_add:将内存块添加到可用内存集合，添加新的内存块区域到memblock.memory中。 - memblock_reserve:将内存块添加到预留内存集合 - memblock_phys_alloc:用于申请memblock中的物理内存 - memblock_remove:删除内存块区域 - memblock_alloc:分配内存 - memblock_free:释放内存 memblock_add memblock_add函数将物理内存区块添加到可用内存集合中，结构管理图如下 memblock_reserve 与memblock_add类似 memblock_alloc void *memblock_alloc(phys_addr_t size, phys_addr_t align) memblock_alloc_try_nid memblock_alloc_internal memblock_alloc_range_nid memblock_find_in_range_node phys_to_virt(alloc) 最终调用memblock_find_in_range_node实现物理内存的分配。memblock_phys_alloc函数与该函数类似，区别是memblock_alloc在分配后会会调用phys_to_virt将物理地址转化为虚拟地址，而memblock_phys_alloc不会。 Arm64 memblock init 物理内存都添加到系统之后，会调用arm64_memblock_init对整个物理内存进行整理，主要的工作就是remove掉一些no-map区域（不归内核管理），同时保留一些关键区域，如内核镜像区，dtb中reserved的内存节点。上图中，浅绿色的就是reserved部分，不能被分配使用，而剩下的部分就可以通过调用上小章节中的函数去使用内存了。小结：（1）系统通过memblock以数组memory type的方式记录物理内存空间，数组中每一个内存区域描述了一段内存信息，包括base，size，node id等。（2）在memblock信息中，已经被使用或者被内核定义需要保留的区域，会存储在reserved 数组中。（3）memory type数组中并不是代表整个内核系统的内存空间，因为股份驱动会保留一段内存区域供自己单独使用，其在dts中具有no-map熟悉的reserved-memory节点，不会由内核创建地址映射。（4）可以通过内核调试节点/sys/kernel/debug/memblockk进行查询相关信息 paging_init 上一章节中，物理内存通过该memblock模块添加进了系统，但是此时仍然只有DTB和image所在的两端物理内存可以访问，其他物理内存还访问不了，因为其还没有建立其页表。即使可以通过memblock_alloc分配物理内存，但是也不能访问，因为其虚拟地址对应的页表没有生成，只有是创建了页表才能通过虚拟地址转化访问物理地址。 void __init paging_init(void) { pgd_t *pgdp = pgd_set_fixmap(__pa_symbol(swapper_pg_dir)); //（1）获取一页内存用于构建PGD映射表，返回的是虚拟地址。 map_kernel(pgdp); //（2）完成内核的映射，包括text,data,bss段等。 map_mem(pgdp); //（3）将memblock子系统添加到物理内存进行映射 pgd_clear_fixmap(); cpu_replace_ttbr1(lm_alias(swapper_pg_dir)); //（4）切换页表，新建立页表内容替换swapper_pg_dir init_mm.pgd = swapper_pg_dir; memblock_free(__pa_symbol(init_pg_dir), __pa_symbol(init_pg_end) - __pa_symbol(init_pg_dir)); //（5）新的映射更新完成，释放掉临时空间 memblock_allow_resize(); } 构建PGD映射表页目录直接使用的是swapper_pg_dir，一个条目映射的空间本身就很大，一个entry对应范围有512GB。 arch/arm64/include/asm/fixmap.h enum fixed_addresses { ...... /* * Used for kernel page table creation, so unmapped memory may be used * for tables. */ FIX_PTE, FIX_PMD, FIX_PUD, FIX_PGD, ...... }; pgd_t *pgdp = pgd_set_fixmap(__pa_symbol(swapper_pg_dir)); #define pgd_set_fixmap(addr) ((pgd_t *)set_fixmap_offset(FIX_PGD, addr)) #define set_fixmap_offset(idx, phys) \\ __set_fixmap_offset(idx, phys, FIXMAP_PAGE_NORMAL) #define __set_fixmap_offset(idx, phys, flags) \\ ({ \\ unsigned long ________addr; \\ __set_fixmap(idx, phys, flags); \\ ________addr = fix_to_virt(idx) + ((phys) & (PAGE_SIZE - 1)); \\ ________addr; \\ }) arch/arm64/kernel/vmlinux.lds.S swapper_pg_dir = .; . += PAGE_SIZE; swapper_pg_dir是实现分配的一段空间，处于内核镜像的data段。通过__pa_symbol先将swapper_pg_dir转化为物理地址，然后与FIX_PGD地址范围进行映射，后续就可以通过虚拟地址FIX_PGD这段访问访问到swapper_pg_dir这块物理空间。 early_pgtable_alloc 对内核各个段、以及memblock管理的物理内存建立映射，在上一章节中已经获取到了PGD全局目录页表，但是接下来的PUD,PMD,PTE对应的页表是需要进行动态分配的，空间的分配可以使用memblock提供的函数进行分配，但是如何进行访问填充页表了？memblock分配空间内核是没法直接访问的，因为没有创建页表，没法通过查表的方式进行查找到物理地址。这个时候前面fixmap就发挥作用了，在fixmap章节中，已经创建了虚拟地址到物理地址的页表，有一段实际的虚拟地址对应的物理地址是待填充的，那就是FIX_PTE~FIX_PGD，所以就可以利用这段空间将memblock分配到的物理地址与FIX_PTE~FIX_PGD对应上，这样内核就可以通过虚拟地址进行访问了，就可以填充页表内容。内核访问物理内存使用的都是虚拟地址，而硬件模块比如MMU等访问内存使用的是物理地址，不需要从虚拟地址到物理地址转换（否则就陷入循环了）。虚拟地址转为物理地址需要查找页表找到对应的物理地址，而这个页表需要进行填充（建立映射关系），因此内核在填充页表的时候，也是使用的虚拟地址访问。只要把各级页表填充好之后就可以了，最终MMU在翻译的时候就访问的是物理地址。 static phys_addr_t __init early_pgtable_alloc(int shift) { phys_addr_t phys; void *ptr; phys = memblock_phys_alloc_range(PAGE_SIZE, PAGE_SIZE, 0, MEMBLOCK_ALLOC_NOLEAKTRACE); //（1）先分配一块物理内存 ptr = pte_set_fixmap(phys); //（2）将当前的物理内存与fixmap的虚拟地址进行映射，映射完成后，内核即可访问这段内存，用的是PTE这段，PGD,PUD,PMD用在哪里？ memset(ptr, 0, PAGE_SIZE); pte_clear_fixmap(); return phys; } 从上可以看出分配一个页表需要PAGE_SIZE的大小，也就等于一个物理页帧大小4KB。页表有512个条目，每个条目占用8字节。内核镜像细粒度映射-map_kernel Map_kernel主要完成内核中各个段的映射，包括text、rodata、init、data、bss等各个段。 static void __init map_kernel(pgd_t *pgdp) map_kernel_segment(pgdp, _stext, _etext, text_prot, &vmlinux_text, 0, VM_NO_GUARD); map_kernel_segment(pgdp, __start_rodata, __inittext_begin, PAGE_KERNEL, &vmlinux_rodata, NO_CONT_MAPPINGS, VM_NO_GUARD); map_kernel_segment(pgdp, __inittext_begin, __inittext_end, text_prot, &vmlinux_inittext, 0, VM_NO_GUARD); //.init map_kernel_segment(pgdp, __initdata_begin, __initdata_end, PAGE_KERNEL, &vmlinux_initdata, 0, VM_NO_GUARD);//.data map_kernel_segment(pgdp, _data, _end, PAGE_KERNEL, &vmlinux_data, 0, 0); //.bss 启动日志 [ 0.000000] Virtual kernel memory layout: [ 0.000000] modules : 0xffffffc000000000 - 0xffffffc008000000 ( 128 MB) [ 0.000000] vmalloc : 0xffffffc008000000 - 0xfffffffdf0000000 ( 247 GB) [ 0.000000] .text : 0xffffffc008080000 - 0xffffffc008a30000 ( 9920 KB) [ 0.000000] .rodata : 0xffffffc008a30000 - 0xffffffc008d70000 ( 3328 KB) [ 0.000000] .init : 0xffffffc008d70000 - 0xffffffc008ef0000 ( 1536 KB) [ 0.000000] .data : 0xffffffc008ef0000 - 0xffffffc00900f008 ( 1149 KB) [ 0.000000] .bss : 0xffffffc00900f008 - 0xffffffc009069920 ( 363 KB) [ 0.000000] fixed : 0xfffffffdfdbf9000 - 0xfffffffdfe000000 ( 4124 KB) [ 0.000000] PCI I/O : 0xfffffffdfe800000 - 0xfffffffdff800000 ( 16 MB) [ 0.000000] vmemmap : 0xfffffffe00000000 - 0xffffffff00000000 ( 4 GB maximum) [ 0.000000] 0xfffffffe00000000 - 0xfffffffe02000000 ( 32 MB actual) [ 0.000000] memory : 0xffffff8000000000 - 0xffffff8080000000 ( 2048 MB) [ 0.000000] PAGE_OFFSET : 0xffffff8000000000 [ 0.000000] PHYS_OFFSET : 0x 40000000 [ 0.000000] KIMAGE_VADDR : 0xffffffc008000000 static void __init map_kernel_segment(pgd_t *pgdp, void *va_start, void *va_end, pgprot_t prot, struct vm_struct *vma, int flags, unsigned long vm_flags) { phys_addr_t pa_start = __pa_symbol(va_start); //将虚拟地址转为物理地址 unsigned long size = va_end - va_start; BUG_ON(!PAGE_ALIGNED(pa_start)); BUG_ON(!PAGE_ALIGNED(size)); __create_pgd_mapping(pgdp, pa_start, (unsigned long)va_start, size, prot, early_pgtable_alloc, flags); if (!(vm_flags & VM_NO_GUARD)) size += PAGE_SIZE; vma->addr = va_start; vma->phys_addr = pa_start; vma->size = size; vma->flags = VM_MAP | vm_flags; vma->caller = __builtin_return_address(0); vm_area_add_early(vma); } 线性映射-map_mem 完成对物理内存的映射，这部分的物理内存是同故宫memblock_add添加系统中的，函数中将会遍历memblock中的各个块，然后调用__map_memblock来完成实际的映射操作。 static void __init map_mem(pgd_t *pgdp) { ...... memblock_mark_nomap(kernel_start, kernel_end - kernel_start); //（1）不对设置了MEMBLOCK_NOMAP的标志映射 /* map all the memory banks */ for_each_mem_range(i, &start, &end) { if (start >= end) break; /* * The linear map must allow allocation tags reading/writing * if MTE is present. Otherwise, it has the same attributes as * PAGE_KERNEL. */ __map_memblock(pgdp, start, end, pgprot_tagged(PAGE_KERNEL), flags); } //（2）遍历memblock中的各个块并完成内存的映射 } 遍历memblock.memory进行逐一映射。 static void __init map_mem(pgd_t *pgdp) { ...... memblock_mark_nomap(kernel_start, kernel_end - kernel_start); //（1）不对设置了MEMBLOCK_NOMAP的标志映射 /* map all the memory banks */ for_each_mem_range(i, &start, &end) { if (start >= end) break; /* * The linear map must allow allocation tags reading/writing * if MTE is present. Otherwise, it has the same attributes as * PAGE_KERNEL. */ __map_memblock(pgdp, start, end, pgprot_tagged(PAGE_KERNEL), flags); } //（2）遍历memblock中的各个块并完成内存的映射 } static void __init __map_memblock(pgd_t *pgdp, phys_addr_t start, phys_addr_t end, pgprot_t prot, int flags) { __create_pgd_mapping(pgdp, start, __phys_to_virt(start), end - start, prot, early_pgtable_alloc, flags); } Start是要映射的物理地址，__phys_to_virt(start)是要映射的虚拟地址，由此可见，这段空间是进行的线性映射。 __create_pgd_mapping map_kernel与map_mem最终都会调用__create_pgd_mapping进行映射。 static void __create_pgd_mapping(pgd_t *pgdir, phys_addr_t phys, unsigned long virt, phys_addr_t size, pgprot_t prot, phys_addr_t (*pgtable_alloc)(int), int flags) { unsigned long addr, end, next; pgd_t *pgdp = pgd_offset_pgd(pgdir, virt); //获取要映射地址virt在PGD页表目录的表项对应的地址（虚拟地址），接下来将会进行填充内容（下一级页表的物理地址）。 /* * If the virtual and physical address don\'t have the same offset * within a page, we cannot map the region as the caller expects. */ if (WARN_ON((phys ^ virt) & ~PAGE_MASK)) return; //让物理内存由原理的按字节计算位置改为按页计算位置 phys &= PAGE_MASK; addr = virt & PAGE_MASK; end = PAGE_ALIGN(virt + size);//按PAGE对齐的方式算，结束地址多少。 do { next = pgd_addr_end(addr, end); //找到当前PGD的结束地址，一般来说PGD entry只有一个，所以这里的循环只会有依次。原因是一个PGD有512个条目，每个条目表示512GB（2^39）的虚拟地址空间。 alloc_init_pud(pgdp, addr, next, phys, prot, pgtable_alloc, flags); //初始化该PGD条目对应的PUD phys += next - addr; } while (pgdp++, addr = next, addr != end); } alloc_init_pud static void alloc_init_pud(pgd_t *pgdp, unsigned long addr, unsigned long end, phys_addr_t phys, pgprot_t prot, phys_addr_t (*pgtable_alloc)(int), int flags) { unsigned long next; pud_t *pudp; p4d_t *p4dp = p4d_offset(pgdp, addr); //获取第四级页表中页表项的地址，MR527是三级页表，所以p4dp=pgdp。 p4d_t p4d = READ_ONCE(*p4dp); //读取表项中的内容，实际读的就是PGD目录（3级） //判断表项内容是否为空，如果为空需要进行PUD，这里表项不为空，因为是3级页表，所以不需要创建PUD if (p4d_none(p4d)) { p4dval_t p4dval = P4D_TYPE_TABLE | P4D_TABLE_UXN; phys_addr_t pud_phys; if (flags & NO_EXEC_MAPPINGS) p4dval |= P4D_TABLE_PXN; BUG_ON(!pgtable_alloc); pud_phys = pgtable_alloc(PUD_SHIFT); __p4d_populate(p4dp, pud_phys, p4dval); p4d = READ_ONCE(*p4dp); } BUG_ON(p4d_bad(p4d)); /* * No need for locking during early boot. And it doesn\'t work as * expected with KASLR enabled. */ if (system_state != SYSTEM_BOOTING) mutex_lock(&fixmap_lock); pudp = pud_set_fixmap_offset(p4dp, addr); //计算所在PUD（PGD）偏移表项的地址（虚拟地址），其地址（虚拟）空间在fixmap范围内FIX_PUD（FIX_PGD）范围内，因为要访问其物理空间，需要查询页表，所以使用之前创建好的页表，填充映射好后，可以直接访问。 do { pud_t old_pud = READ_ONCE(*pudp); next = pud_addr_end(addr, end); //PUD起始和结束位置，大小是1GB。空间比较大，只循环一次。 /* * For 4K granule only, attempt to put down a 1GB block */ if (use_1G_block(addr, next, phys) && (flags & NO_BLOCK_MAPPINGS) == 0) { pud_set_huge(pudp, phys, prot); /* * After the PUD entry has been populated once, we * only allow updates to the permission attributes. */ BUG_ON(!pgattr_change_is_safe(pud_val(old_pud), READ_ONCE(pud_val(*pudp)))); } else { alloc_init_cont_pmd(pudp, addr, next, phys, prot, pgtable_alloc, flags);//循环在各个PUD映射表现建立对应PMD页表 BUG_ON(pud_val(old_pud) != 0 && pud_val(old_pud) != READ_ONCE(pud_val(*pudp))); } phys += next - addr; } while (pudp++, addr = next, addr != end); pud_clear_fixmap(); if (system_state != SYSTEM_BOOTING) mutex_unlock(&fixmap_lock); } alloc_init_cont_pmd static void alloc_init_cont_pmd(pud_t *pudp, unsigned long addr, unsigned long end, phys_addr_t phys, pgprot_t prot, phys_addr_t (*pgtable_alloc)(int), int flags) { unsigned long next; pud_t pud = READ_ONCE(*pudp);//获取PUD页表中addr对应的表项内容，也就是PMD页表地址 /* * Check for initial section mappings in the pgd/pud. */ BUG_ON(pud_sect(pud)); //如果PUD页表为空，则分配一个页表，页表中的表项为创建512个。页表大小一个为4K，每个表项占8字节。 if (pud_none(pud)) { pudval_t pudval = PUD_TYPE_TABLE | PUD_TABLE_UXN; phys_addr_t pmd_phys; if (flags & NO_EXEC_MAPPINGS) pudval |= PUD_TABLE_PXN; BUG_ON(!pgtable_alloc); pmd_phys = pgtable_alloc(PMD_SHIFT); __pud_populate(pudp, pmd_phys, pudval);//将PMD页表的物理地址填充到映射地址对应的PUD（实际上是PGD，3级页表）表项中 pud = READ_ONCE(*pudp); } BUG_ON(pud_bad(pud)); do { pgprot_t __prot = prot; next = pmd_cont_addr_end(addr, end); //一个PMD entry映射范围是2M，所以计算需要多少个entry。但是如果是连续的物理内存，init_pmd不是只初始化一个entry，而是一下初始化多个entry，多少个entry由CONT_PMDS。所以这里的地址范围next的距离将是CONT_PMDS*PMD_SIZE。 /* use a contiguous mapping if the range is suitably aligned */ if ((((addr | next | phys) & ~CONT_PMD_MASK) == 0) && (flags & NO_CONT_MAPPINGS) == 0) __prot = __pgprot(pgprot_val(prot) | PTE_CONT); init_pmd(pudp, addr, next, phys, __prot, pgtable_alloc, flags); //初始化PMD页表，创建下一级页表，同时将其物理地址填充到表项中。 phys += next - addr; } while (addr = next, addr != end); } init_pmd static void init_pmd(pud_t *pudp, unsigned long addr, unsigned long end, phys_addr_t phys, pgprot_t prot, phys_addr_t (*pgtable_alloc)(int), int flags) { unsigned long next; pmd_t *pmdp; pmdp = pmd_set_fixmap_offset(pudp, addr); //获取映射地址addr对应PMD页表项的地址（虚拟地址），其地址范围在FIX_PMD中，因为访问物理内存也需要查询页表，那就将其物理地址映射到FIXMAP范围，就可以进行直接访问虚拟地址了。 do { pmd_t old_pmd = READ_ONCE(*pmdp);//遍历PMD表项， next = pmd_addr_end(addr, end); //每个PMD的映射范围是2M，遍历需要多少个PTE。 /* try section mapping first */ if (((addr | next | phys) & ~PMD_MASK) == 0 && (flags & NO_BLOCK_MAPPINGS) == 0) { pmd_set_huge(pmdp, phys, prot); /* * After the PMD entry has been populated once, we * only allow updates to the permission attributes. */ BUG_ON(!pgattr_change_is_safe(pmd_val(old_pmd), READ_ONCE(pmd_val(*pmdp)))); } else { alloc_init_cont_pte(pmdp, addr, next, phys, prot, pgtable_alloc, flags); BUG_ON(pmd_val(old_pmd) != 0 && pmd_val(old_pmd) != READ_ONCE(pmd_val(*pmdp))); } phys += next - addr; } while (pmdp++, addr = next, addr != end); pmd_clear_fixmap(); } static void alloc_init_cont_pte(pmd_t *pmdp, unsigned long addr, unsigned long end, phys_addr_t phys, pgprot_t prot, phys_addr_t (*pgtable_alloc)(int), int flags) { unsigned long next; pmd_t pmd = READ_ONCE(*pmdp);//获得PTE映射表的头地址 BUG_ON(pmd_sect(pmd)); if (pmd_none(pmd)) {//如果没有该表则创建一个 pmdval_t pmdval = PMD_TYPE_TABLE | PMD_TABLE_UXN; phys_addr_t pte_phys; if (flags & NO_EXEC_MAPPINGS) pmdval |= PMD_TABLE_PXN; pte_phys = pgtable_alloc(PAGE_SHIFT); __pmd_populate(pmdp, pte_phys, pmdval); pmd = READ_ONCE(*pmdp); } do { pgprot_t __prot = prot; next = pte_cont_addr_end(addr, end); //一个PTE entry映射范围是4K，所以计算需要多少个entry。但是如果是连续的物理内存，init_pmd不是只初始化一个entry，而是一下初始化多个entry，多少个entry由CONT_PTES。所以这里的地址范围next的距离将是CONT_PTES*PTE_SIZE。 /* use a contiguous mapping if the range is suitably aligned */ if ((((addr | next | phys) & ~CONT_PTE_MASK) == 0) && (flags & NO_CONT_MAPPINGS) == 0) __prot = __pgprot(pgprot_val(prot) | PTE_CONT); init_pte(pmdp, addr, next, phys, __prot);//初始化每一个PTE的表项记录，对应物理页帧 phys += next - addr; } while (addr = next, addr != end); } init_pte static void init_pte(pmd_t *pmdp, unsigned long addr, unsigned long end, phys_addr_t phys, pgprot_t prot) { pte_t *ptep; ptep = pte_set_fixmap_offset(pmdp, addr);//根据addr找到对应的PTE Entry位置 do { pte_t old_pte = READ_ONCE(*ptep); //读这个entry的值，一般来说新建的entry是没有valid的值的 set_pte(ptep, pfn_pte(__phys_to_pfn(phys), prot)); //将物理地址转换为页帧，然后写入PTE /* * After the PTE entry has been populated once, we * only allow updates to the permission attributes. */ BUG_ON(!pgattr_change_is_safe(pte_val(old_pte), READ_ONCE(pte_val(*ptep)))); phys += PAGE_SIZE; } while (ptep++, addr += PAGE_SIZE, addr != end); pte_clear_fixmap(); } 内核debug日志内核debug日志 map_kernel_segment:pgdp:fffffffdfda36000,[va_start:ffffffc008a30000,va_end:ffffffc008d70000] paging_init+0x14c/0x524 __create_pgd_mapping:pgdp:0xfffffffdfda36800, size pgd_t:8, map_kernel_segment+0xf4/0x160 alloc_init_pud,333: pgdp:0xfffffffdfda36800, map_kernel_segment+0xf4/0x160 alloc_init_cont_pmd,274: pudp:0xfffffffdfda36800, size pud_t:8,map_kernel_segment+0xf4/0x160 init_pmd,235: pmdp:0xfffffffdfda38228, size pmd_t:8, addr:0xffffffc008a30000,end:0xffffffc008d70000 map_kernel_segment+0xf4/0x160 alloc_init_cont_pte,193: pmdp:0xfffffffdfda38228,addr:0xffffffc008a30000,end:0xffffffc008c00000 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39200,size pte_t:8, end:0xffffffc008a40000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39280,size pte_t:8, end:0xffffffc008a50000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39300,size pte_t:8, end:0xffffffc008a60000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39380,size pte_t:8, end:0xffffffc008a70000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39400,size pte_t:8, end:0xffffffc008a80000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39480,size pte_t:8, end:0xffffffc008a90000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39500,size pte_t:8, end:0xffffffc008aa0000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39580,size pte_t:8, end:0xffffffc008ab0000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39600,size pte_t:8, end:0xffffffc008ac0000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39680,size pte_t:8, end:0xffffffc008ad0000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39700,size pte_t:8, end:0xffffffc008ae0000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39780,size pte_t:8, end:0xffffffc008af0000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39800,size pte_t:8, end:0xffffffc008b00000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39880,size pte_t:8, end:0xffffffc008b10000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39900,size pte_t:8, end:0xffffffc008b20000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39980,size pte_t:8, end:0xffffffc008b30000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39a00,size pte_t:8, end:0xffffffc008b40000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39a80,size pte_t:8, end:0xffffffc008b50000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39b00,size pte_t:8, end:0xffffffc008b60000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39b80,size pte_t:8, end:0xffffffc008b70000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39c00,size pte_t:8, end:0xffffffc008b80000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39c80,size pte_t:8, end:0xffffffc008b90000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39d00,size pte_t:8, end:0xffffffc008ba0000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39d80,size pte_t:8, end:0xffffffc008bb0000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39e00,size pte_t:8, end:0xffffffc008bc0000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39e80,size pte_t:8, end:0xffffffc008bd0000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39f00,size pte_t:8, end:0xffffffc008be0000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39f80,size pte_t:8, end:0xffffffc008bf0000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda3a000,size pte_t:8, end:0xffffffc008c00000,number:16 map_kernel_segment+0xf4/0x160 alloc_init_cont_pte,193: pmdp:0xfffffffdfda38230,addr:0xffffffc008c00000,end:0xffffffc008d70000 map_kernel_segment+0xf4/0x160 memblock_reserve: [0x00000000bfffc000-0x00000000bfffcfff] memblock_alloc_range_nid+0xec/0x154 memblock_add_range: [0x00000000bfffc000] memblock_reserve+0xac/0x160 memblock_insert_region:name:reserved [0x00000000bfffc000] size:1000,memblock_add_range.constprop.0.isra.0+0x19c/0x214 alloc_init_cont_pte,204: pte_phys:0xbfffc000, map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39080,size pte_t:8, end:0xffffffc008c10000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39100,size pte_t:8, end:0xffffffc008c20000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39180,size pte_t:8, end:0xffffffc008c30000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39200,size pte_t:8, end:0xffffffc008c40000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39280,size pte_t:8, end:0xffffffc008c50000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39300,size pte_t:8, end:0xffffffc008c60000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39380,size pte_t:8, end:0xffffffc008c70000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39400,size pte_t:8, end:0xffffffc008c80000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39480,size pte_t:8, end:0xffffffc008c90000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39500,size pte_t:8, end:0xffffffc008ca0000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39580,size pte_t:8, end:0xffffffc008cb0000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39600,size pte_t:8, end:0xffffffc008cc0000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39680,size pte_t:8, end:0xffffffc008cd0000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39700,size pte_t:8, end:0xffffffc008ce0000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39780,size pte_t:8, end:0xffffffc008cf0000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39800,size pte_t:8, end:0xffffffc008d00000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39880,size pte_t:8, end:0xffffffc008d10000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39900,size pte_t:8, end:0xffffffc008d20000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39980,size pte_t:8, end:0xffffffc008d30000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39a00,size pte_t:8, end:0xffffffc008d40000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39a80,size pte_t:8, end:0xffffffc008d50000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39b00,size pte_t:8, end:0xffffffc008d60000,number:16 map_kernel_segment+0xf4/0x160 init_pte,179: ptep:0xfffffffdfda39b80,size pte_t:8, end:0xffffffc008d70000,number:16 map_kernel_segment+0xf4/0x160 number表示在函数中调用一次init_pte调用set_pte的此次，为16次。 bootmem_init 完成了linux物理内存框架的初始化，包括Node, Zone, Page Frame以及对应的数据结构等。 void __init bootmem_init(void) { unsigned long min, max; min = PFN_UP(memblock_start_of_DRAM()); max = PFN_DOWN(memblock_end_of_DRAM()); early_memtest(min << PAGE_SHIFT, max << PAGE_SHIFT); max_pfn = max_low_pfn = max; min_low_pfn = min; arch_numa_init(); /* * must be done after arch_numa_init() which calls numa_init() to * initialize node_online_map that gets used in hugetlb_cma_reserve() * while allocating required CMA size across online nodes. */ #if defined(CONFIG_HUGETLB_PAGE) && defined(CONFIG_CMA) arm64_hugetlb_cma_reserve(); #endif dma_pernuma_cma_reserve(); kvm_hyp_reserve(); /* * sparse_init() tries to allocate memory from memblock, so must be * done after the fixed reservations */ sparse_init(); zone_sizes_init(min, max); /* * Reserve the CMA area after arm64_dma_phys_limit was initialised. */ dma_contiguous_reserve(arm64_dma_phys_limit); /* * request_standard_resources() depends on crashkernel\'s memory being * reserved, so do it here. */ if (IS_ENABLED(CONFIG_ZONE_DMA) || IS_ENABLED(CONFIG_ZONE_DMA32)) reserve_crashkernel(); memblock_dump_all(); sparse_init Linux内核使用通常有三种内存模型，前面两种基本不再使用，目前常用的就是Sparse memory model，sparse init就是对该模型的初始化，主要的目的就是将memblock.memory添加到struct mem_section进行管理。 memory_present static void __init memblocks_present(void) { unsigned long start, end; int i, nid; for_each_mem_pfn_range(i, MAX_NUMNODES, &start, &end, &nid) memory_present(nid, start, end); //从memblock.memory进行遍历可用内存，每块memory返回的是PFN的范围start~end，每个PFN大小4KB。 } /* Record a memory area against a node. */ static void __init memory_present(int nid, unsigned long start, unsigned long end) { unsigned long pfn; #ifdef CONFIG_SPARSEMEM_EXTREME if (unlikely(!mem_section)) { unsigned long size, align; size = sizeof(struct mem_section *) * NR_SECTION_ROOTS; align = 1 << (INTERNODE_CACHE_SHIFT); mem_section = memblock_alloc(size, align); //分配NR_SECTION_ROOTS个数组指针，用于指向struct mem_section的实例。 if (!mem_section) panic(\"%s: Failed to allocate %lu bytes align=0x%lx\\n\", __func__, size, align); } #endif start &= PAGE_SECTION_MASK; mminit_validate_memmodel_limits(&start, &end); for (pfn = start; pfn < end; pfn += PAGES_PER_SECTION) { unsigned long section = pfn_to_section_nr(pfn); struct mem_section *ms; sparse_index_init(section, nid); ->section = sparse_index_alloc(nid); //为存在的mem_section分配一个实例,并添加到mem_sction中。 set_section_nid(section, nid); ms = __nr_to_section(section); //获取该section的指针 if (!ms->section_mem_map) { ms->section_mem_map = sparse_encode_early_nid(nid) | SECTION_IS_ONLINE; __section_mark_present(ms, section); } //设置该section的online标志和node id值 } } 物理内存空间按照seciton来组织的，每个section内部其memory是连续的。一个section包含多个page，在内核中由PAGES_PER_SECTION来决定，linux 5.15内核3级页表中为32768，因此内存的范围是32768*4KB=128MB，也就是说一个section最大的内存范围是128MB。 PFN找到对应的page，可以通过PFN->section->page。 page找到PFN，page->section index->memory_section->section_mem_map->PFN sparse_init_nid 内存添加到mem_section后，就进行遍历present的section，然后为其分配对应的section结构以及对应的struct page结构体。 for_each_present_section_nr(pnum_begin + 1, pnum_end) { int nid = sparse_early_nid(__nr_to_section(pnum_end)); if (nid == nid_begin) { map_count++; continue; } /* Init node with sections in range [pnum_begin, pnum_end) */ sparse_init_nid(nid_begin, pnum_begin, pnum_end, map_count); nid_begin = nid; pnum_begin = pnum_end; map_count = 1; } static void __init sparse_init_nid(int nid, unsigned long pnum_begin, unsigned long pnum_end, unsigned long map_count) { struct mem_section_usage *usage; unsigned long pnum; struct page *map; //（1）为mem_section中的mem_section_usage分配内存，用于存储内存段的使用情况 usage = sparse_early_usemaps_alloc_pgdat_section(NODE_DATA(nid), mem_section_usage_size() * map_count); if (!usage) { pr_err(\"%s: node[%d] usemap allocation failed\", __func__, nid); goto failed; } //（2）为struct page结构体分配内存，一个section最大指向128MB的空间，将分配128*1024/4个数量。 sparse_buffer_init(map_count * section_map_size(), nid); for_each_present_section_nr(pnum_begin, pnum) { unsigned long pfn = section_nr_to_pfn(pnum); if (pnum >= pnum_end) break; map = __populate_section_memmap(pfn, PAGES_PER_SECTION, nid, NULL); //获取该section对应的page 结构体地址，如果使能了vmemmap模型，则地址范围在vmememap区域中，需要建立vmmemap到page frame的页表。 if (!map) { pr_err(\"%s: node[%d] memory map backing failed. Some memory will not be available.\", __func__, nid); pnum_begin = pnum; sparse_buffer_fini(); goto failed; } check_usemap_section_nr(nid, usage); sparse_init_one_section(__nr_to_section(pnum), pnum, map, usage, SECTION_IS_EARLY); //设置section对应的page结构体指针及其标志 usage = (void *) usage + mem_section_usage_size(); } sparse_buffer_fini(); return; failed: /* We failed to allocate, mark all the following pnums as not present */ for_each_present_section_nr(pnum_begin, pnum) { struct mem_section *ms; if (pnum >= pnum_end) break; ms = __nr_to_section(pnum); ms->section_mem_map = 0; } } 虚拟地址空间vmmepmap区域，是内核中page数据的虚拟地址，针对sparse内存模型，内核申请的page返回的地址在该区域。 zone_sizes_init static void __init zone_sizes_init(unsigned long min, unsigned long max) { unsigned long max_zone_pfns[MAX_NR_ZONES] = {0}; unsigned int __maybe_unused acpi_zone_dma_bits; unsigned int __maybe_unused dt_zone_dma_bits; phys_addr_t __maybe_unused dma32_phys_limit = max_zone_phys(32); #ifdef CONFIG_ZONE_DMA acpi_zone_dma_bits = fls64(acpi_iort_dma_get_max_cpu_address()); dt_zone_dma_bits = fls64(of_dma_get_max_cpu_address(NULL)); zone_dma_bits = min3(32U, dt_zone_dma_bits, acpi_zone_dma_bits); arm64_dma_phys_limit = max_zone_phys(zone_dma_bits); max_zone_pfns[ZONE_DMA] = PFN_DOWN(arm64_dma_phys_limit); //跟进实际物理内存计算ZONE_DMA区的最大PFN数量 #endif #ifdef CONFIG_ZONE_DMA32 max_zone_pfns[ZONE_DMA32] = disable_dma32 ? 0 : PFN_DOWN(dma32_phys_limit); //计算ZONE_DMA_32区的最大PFN数量 if (!arm64_dma_phys_limit) arm64_dma_phys_limit = dma32_phys_limit; #endif max_zone_pfns[ZONE_NORMAL] = max; //计算ZONE_NORMAL区的最大PFN数量 printk(\"%s,%d:dma:%lu, dma32:%lu, Normal:%lu %pS\\n\", __func__,__LINE__, max_zone_pfns[ZONE_DMA], max_zone_pfns[ZONE_DMA32], max_zone_pfns[ZONE_NORMAL],(void *)_RET_IP_); free_area_init(max_zone_pfns); //初始化node和zone信息，以及page结构体。 } free_area_init void __init free_area_init(unsigned long *max_zone_pfn) { unsigned long start_pfn, end_pfn; int i, nid, zone; bool descending; /* Record where the zone boundaries are */ memset(arch_zone_lowest_possible_pfn, 0, sizeof(arch_zone_lowest_possible_pfn)); memset(arch_zone_highest_possible_pfn, 0, sizeof(arch_zone_highest_possible_pfn)); start_pfn = find_min_pfn_with_active_regions(); descending = arch_has_descending_max_zone_pfns(); for (i = 0; i < MAX_NR_ZONES; i++) { if (descending) zone = MAX_NR_ZONES - i - 1; else zone = i; if (zone == ZONE_MOVABLE) continue; //ZONE_MOVABLE是一个虚拟ZONE，实际内存空间不是独立的，因此不需要初始化 end_pfn = max(max_zone_pfn[zone], start_pfn); arch_zone_lowest_possible_pfn[zone] = start_pfn; arch_zone_highest_possible_pfn[zone] = end_pfn; //填充每个zone的地址范围 start_pfn = end_pfn; } /* Find the PFNs that ZONE_MOVABLE begins at in each node */ memset(zone_movable_pfn, 0, sizeof(zone_movable_pfn)); find_zone_movable_pfns_for_nodes(); //获取每个节点中ZONE_MOVABLE PFNs /* Print out the zone ranges */ pr_info(\"Zone ranges:\\n\"); for (i = 0; i < MAX_NR_ZONES; i++) { if (i == ZONE_MOVABLE) continue; pr_info(\" %-8s \", zone_names[i]); if (arch_zone_lowest_possible_pfn[i] == arch_zone_highest_possible_pfn[i]) pr_cont(\"empty\\n\"); else pr_cont(\"[mem %#018Lx-%#018Lx]\\n\", (u64)arch_zone_lowest_possible_pfn[i] << PAGE_SHIFT, ((u64)arch_zone_highest_possible_pfn[i] << PAGE_SHIFT) - 1); } //打印每个Zone区域的地址范围。 /* Print out the PFNs ZONE_MOVABLE begins at in each node */ pr_info(\"Movable zone start for each node\\n\"); for (i = 0; i < MAX_NUMNODES; i++) { if (zone_movable_pfn[i]) pr_info(\" Node %d: %#018Lx\\n\", i, (u64)zone_movable_pfn[i] << PAGE_SHIFT); } //打印每个节点中ZONE_MOVABLE地址范围 /* * Print out the early node map, and initialize the * subsection-map relative to active online memory ranges to * enable future \"sub-section\" extensions of the memory map. */ pr_info(\"Early memory node ranges\\n\"); for_each_mem_pfn_range(i, MAX_NUMNODES, &start_pfn, &end_pfn, &nid) { pr_info(\" node %3d: [mem %#018Lx-%#018Lx]\\n\", nid, (u64)start_pfn << PAGE_SHIFT, ((u64)end_pfn << PAGE_SHIFT) - 1); subsection_map_init(start_pfn, end_pfn - start_pfn); } //初始化每个node，实际上ARM64上通常只有一个 /* Initialise every node */ mminit_verify_pageflags_layout(); setup_nr_node_ids(); for_each_online_node(nid) { pg_data_t *pgdat = NODE_DATA(nid); free_area_init_node(nid); //初始化node相关结构体中pgdat内容，包括各个ZONE区域的spanned_pages,present_pages,memap_pages，nr_kernel_pages,nr_all_pages等等 /* Any memory on that node */ if (pgdat->node_present_pages) node_set_state(nid, N_MEMORY); //将node状态从N_ONLINE切换到N_MEMORY状态 check_for_memory(pgdat, nid); } memmap_init(); //遍历memblock的region，跟进PFN找到对应的struct page，对该结构体进行初始化，设置MIFRATE_MOVABLE标志等等。 } free_area_init_node static void __init free_area_init_node(int nid) { pg_data_t *pgdat = NODE_DATA(nid); unsigned long start_pfn = 0; unsigned long end_pfn = 0; /* pg_data_t should be reset to zero when it\'s allocated */ WARN_ON(pgdat->nr_zones || pgdat->kswapd_highest_zoneidx); //获取该节点中PFN的起始号和结束号 get_pfn_range_for_nid(nid, &start_pfn, &end_pfn); pgdat->node_id = nid; pgdat->node_start_pfn = start_pfn; //设置该节点的起始PFN pgdat->per_cpu_nodestats = NULL; pr_info(\"Initmem setup node %d [mem %#018Lx-%#018Lx]\\n\", nid, (u64)start_pfn << PAGE_SHIFT, end_pfn ? ((u64)end_pfn << PAGE_SHIFT) - 1 : 0); calculate_node_totalpages(pgdat, start_pfn, end_pfn); //计算pgdat中struct zone成员中的spanned_pages,present_pages等变量内容 alloc_node_mem_map(pgdat); pgdat_set_deferred_range(pgdat); free_area_init_core(pgdat); // 设置 zone data结构体，包括设置其所有的pages reserved，所有memory queues是空，清空memory bitmaps等等 } free_area_init_core static void __init free_area_init_core(struct pglist_data *pgdat) { enum zone_type j; int nid = pgdat->node_id; pgdat_init_internals(pgdat); pgdat->per_cpu_nodestats = &boot_nodestats; for (j = 0; j < MAX_NR_ZONES; j++) { struct zone *zone = pgdat->node_zones + j; unsigned long size, freesize, memmap_pages; size = zone->spanned_pages; freesize = zone->present_pages; /* * Adjust freesize so that it accounts for how much memory * is used by this zone for memmap. This affects the watermark * and per-cpu initialisations */ memmap_pages = calc_memmap_size(size, freesize); if (!is_highmem_idx(j)) { if (freesize >= memmap_pages) { freesize -= memmap_pages; if (memmap_pages) pr_debug(\" %s zone: %lu pages used for memmap\\n\", zone_names[j], memmap_pages); } else pr_warn(\" %s zone: %lu memmap pages exceeds freesize %lu\\n\", zone_names[j], memmap_pages, freesize); } /* Account for reserved pages */ if (j == 0 && freesize > dma_reserve) { freesize -= dma_reserve; pr_debug(\" %s zone: %lu pages reserved\\n\", zone_names[0], dma_reserve); } if (!is_highmem_idx(j)) nr_kernel_pages += freesize; /* Charge for highmem memmap if there are enough kernel pages */ else if (nr_kernel_pages > memmap_pages * 2) nr_kernel_pages -= memmap_pages; nr_all_pages += freesize; /* * Set an approximate value for lowmem here, it will be adjusted * when the bootmem allocator frees pages into the buddy system. * And all highmem pages will be managed by the buddy system. */ zone_init_internals(zone, j, nid, freesize); if (!size) continue; set_pageblock_order(); setup_usemap(zone); init_currently_empty_zone(zone, zone->zone_start_pfn, size); //初始化伙伴系统中使用的free_area[] } } zone_init_free_lists static void __meminit zone_init_free_lists(struct zone *zone) { unsigned int order, t; for_each_migratetype_order(order, t) { INIT_LIST_HEAD(&zone->free_area[order].free_list[t]); zone->free_area[order].nr_free = 0; } //初始化free_area[]对应的链表。 //for_each_migratetype_order可用于迭代指定迁移类型的所有分配阶，先遍历free_area[]，再遍历free_list[] } 启动打印信息启动打印信息。 [ 0.000000] Zone ranges: [ 0.000000] DMA [mem 0x0000000040000000-0x00000000bfffffff] [ 0.000000] DMA32 empty [ 0.000000] Normal empty [ 0.000000] Movable zone start for each node [ 0.000000] Early memory node ranges [ 0.000000] node 0: [mem 0x0000000040000000-0x0000000041ffffff] [ 0.000000] node 0: [mem 0x0000000042000000-0x000000004210ffff] [ 0.000000] node 0: [mem 0x0000000042110000-0x00000000421fffff] [ 0.000000] node 0: [mem 0x0000000042200000-0x0000000042243fff] [ 0.000000] node 0: [mem 0x0000000042244000-0x00000000423fffff] [ 0.000000] node 0: [mem 0x0000000042400000-0x0000000042443fff] [ 0.000000] node 0: [mem 0x0000000042444000-0x00000000bfffffff] 内核如何直到给定的分配内存属于何种迁移类型？内核提供两个标志，分别用于分配内存是可移动的(__GFP_MOVABLE)或可回收的(__GFP_RECATMABLE)，如果这些标志都没有设置，则分配的内存假定为不可移动。如何初始化可移动性的分组？ build_all_zonelists 主要是为node创建一个内存分配时优先级的顺序。将系统中各个节点的各个zone，按照备选节点的优先级顺序依次填写到对应结构体描述符的struct zonelist node_zonelist[]数组中。某node的zonelist可以按下面的优先级进行赋值：（1）对于不同节点，本地node内存放在zonelist的最前面，其他node的内存根据其与本节点的distance值从小到大依次排列。（2）对于node内部不同的zone也存在优先级关系，normal zone排在dma zone的前面。

🕒 2023-07-01 📁 内存管理 👤 laumy 🔥 1388 热度
内存初始化之页表基本操作

页表级数如何确定page table level？确定了VABITS和PAGES size之后，页表级数也可确定，根据内核的配置如下： config PGTABLE_LEVELS int default 2 if ARM64_16K_PAGES && ARM64_VA_BITS_36 default 2 if ARM64_64K_PAGES && ARM64_VA_BITS_42 default 3 if ARM64_64K_PAGES && (ARM64_VA_BITS_48 || ARM64_VA_BITS_52) default 3 if ARM64_4K_PAGES && ARM64_VA_BITS_39 default 3 if ARM64_16K_PAGES && ARM64_VA_BITS_47 default 4 if !ARM64_64K_PAGES && ARM64_VA_BITS_48 另外在代码头文件中还有宏定义确定 arch/arm64/include/asm/pgtable-hwdef.h #define ARM64_HW_PGTABLE_LEVELS(va_bits) (((va_bits) - 4) / (PAGE_SHIFT - 3)) Va_bits虚拟地址位宽，PAGE_SHIFT就是page size。页表表项大小 #define ARM64_HW_PGTABLE_LEVEL_SHIFT(n) ((PAGE_SHIFT - 3) * (4 - (n)) + 3) #if CONFIG_PGTABLE_LEVELS > 2 #define PMD_SHIFT ARM64_HW_PGTABLE_LEVEL_SHIFT(2) #define PMD_SIZE (_AC(1, UL) << PMD_SHIFT) #define PMD_MASK (~(PMD_SIZE-1)) #define PTRS_PER_PMD PTRS_PER_PTE #endif #if CONFIG_PGTABLE_LEVELS > 3 #define PUD_SHIFT ARM64_HW_PGTABLE_LEVEL_SHIFT(1) #define PUD_SIZE (_AC(1, UL) << PUD_SHIFT) #define PUD_MASK (~(PUD_SIZE-1)) #define PTRS_PER_PUD PTRS_PER_PTE #endif #define PGDIR_SHIFT ARM64_HW_PGTABLE_LEVEL_SHIFT(4 - CONFIG_PGTABLE_LEVELS) #define PGDIR_SIZE (_AC(1, UL) << PGDIR_SHIFT) #define PGDIR_MASK (~(PGDIR_SIZE-1)) #define PTRS_PER_PGD (1 << (VA_BITS - PGDIR_SHIFT)) XXX_SHIFT：各级页表索引在虚拟地址中的偏移，如下图。 XXX_SIZE：各级页表表项描述的地址空间大小（一个条目），如arm64 PMD_SIZE 为2MB（2^21）。 XXX_MASK：各级页表屏蔽位掩码。 PTRS_PER_XXX：各级页表存放的表项个数一般2^8=512。 CONFIG_ARM64_VA_BITS_39=y CONFIG_ARM64_VA_BITS=39 CONFIG_ARM64_PA_BITS_48=y CONFIG_ARM64_PA_BITS=48 CONFIG_ARM64_PAGE_SHIFT=12 PMD_SHIFT=21 //虚拟地址右移21位得到PMD表项entry地址，指向PTE表的。 PUD_SHIFT=30 //虚拟地址右移30位得到PUD表项entry地址，指向PMD表。 PGDIR_SHIFT=30 //PUD=PGD PTRS_PER_PGD=512 PTRS_PER_PTE=512 PTRS_PER_PMD=512 PTRS_PER_PUM=512 /* PAGE_SHIFT determines the page size */ #define PAGE_SHIFT CONFIG_ARM64_PAGE_SHIFT #define PAGE_SIZE (_AC(1, UL) << PAGE_SHIFT) #define PAGE_MASK (~(PAGE_SIZE-1)) CONFIG_ARM64_CONT_PTE_SHIFT=4 //一个PTE（Page Table Entry）可以表示2^4=16个连续的物理页面,如果page size = 4K，那么一个PTE表示连续物理空间大小微16*4KB=64KB。 #define CONT_PTE_SHIFT (CONFIG_ARM64_CONT_PTE_SHIFT + PAGE_SHIFT) //=16 //PTE映射的连续物理页面大小，2^16=64KB。 #define CONT_PTES (1 << (CONT_PTE_SHIFT - PAGE_SHIFT)) //一个连续物理页面需要PTE的数量，如上面64KB，需要16个PTE，实际也是64KB/4KB=16，每个PTE映射4KB大小。相当于给PTE再分个组，16个PTE组成一组，对应一段映射范围。 #define CONT_PTE_SIZE (CONT_PTES * PAGE_SIZE) //连续物理页面需要PTE映射的空间大小，4KB*16=64KB #define CONT_PTE_MASK (~(CONT_PTE_SIZE - 1)) #define CONT_PMD_SHIFT (CONFIG_ARM64_CONT_PMD_SHIFT + PMD_SHIFT) //4+21=25 #define CONT_PMDS (1 << (CONT_PMD_SHIFT - PMD_SHIFT)) //2^4=16 #define CONT_PMD_SIZE (CONT_PMDS * PMD_SIZE) #define CONT_PMD_MASK (~(CONT_PMD_SIZE - 1)) 其他页表相关定义表项数据类型定义 typedef u64 pteval_t; typedef u64 pmdval_t; typedef u64 pudval_t; typedef u64 p4dval_t; typedef u64 pgdval_t; typedef struct { pteval_t pte; } pte_t; typedef struct { pmdval_t pmd; } pmd_t; typedef struct { pudval_t pud; } pud_t; typedef struct { pgdval_t pgd; } pgd_t; ypedef struct { pteval_t pgprot; } pgprot_t; 获取表项索引值 #define pgd_index(addr) (((addr) >> PGDIR_SHIFT) & (PTRS_PER_PGD - 1)) #define pud_index(addr) (((addr) >> PUD_SHIFT) & (PTRS_PER_PUD - 1)) #define pmd_index(addr) (((addr) >> PMD_SHIFT) & (PTRS_PER_PMD - 1)) #define pte_index(addr) (((addr) >> PAGE_SHIFT) & (PTRS_PER_PTE - 1)) 获取表项地址 #define pgd_offset(mm, addr) (pgd_offset_raw((mm)->pgd, (addr))) #define pgd_offset_k(addr) pgd_offset(&init_mm, addr) #define pud_offset_phys(dir, addr) (pgd_page_paddr(*(dir)) + pud_index(addr) * sizeof(pud_t)) #define pud_offset(dir, addr) ((pud_t *)__va(pud_offset_phys((dir), (addr)))) #define pmd_offset_phys(dir, addr) (pud_page_paddr(*(dir)) + pmd_index(addr) * sizeof(pmd_t)) #define pmd_offset(dir, addr) ((pmd_t *)__va(pmd_offset_phys((dir), (addr)))) #define pte_offset_phys(dir,addr) (pmd_page_paddr(READ_ONCE(*(dir))) + pte_index(addr) * sizeof(pte_t)) #define pte_offset_kernel(dir,addr) ((pte_t *)__va(pte_offset_phys((dir), (addr)))) 通过虚拟地址，获取表项的地址（虚拟地址），用这些函数拿到表项中具体的地址用于填充等操作。表项状态判断 #define xxx_none(pud) (!pud_val(pud)) //判断是否为空表项，指向的下一级页表没分配 #define xxx_bad(pud) (!pud_table(pud)) //判断是否为坏表项 #define xxx_present(pud) pte_present(pud_pte(pud))//判断表项是否存在表项设置 pte_wrprotect 设置为写保护 pte_mkwrite 设置为可写 pte_mkclean 清除脏标志 pte_mkdirty 设置脏标志 pte_mkyoung 设置为访问标志 pte_mkold 清除访问标志 set_pte 设置pte到ptep pte_pfn 页表项目中取出页帧号 pfn_pte 页帧号和标志组合成页表项页目录/页表分配和释放 Xxx_alloc 页表分配，如分配页全局目录 Eg: pte_alloc Xxx_free 页表释放， Eg: pte_free

🕒 2023-06-18 📁 内存管理 👤 laumy 🔥 535 热度

1 2 3 下一页 »