归因方法与火焰图

# 归因方法论与火焰图解读

📊 学习成本预估 ｜难度：⭐⭐⭐⭐⭐（5/5）｜阅读：约 30 分钟｜实操：3 小时 🔗 前置阅读：卷零·01-04　｜　➡️ 后续延伸：卷二·01, 卷三·03

采集到数据，下一步是归因：从"知道慢"走到"知道为什么慢"。本文给出一套跨平台通用的归因路径与火焰图解读方法。

# 目录介绍

01.归因的两条路径
02.关键路径分析
03.on-CPU 与 off-CPU 分析
04.火焰图（Flame Graph）
05.归因决策树
06.混淆变量识别
07.归因案例演练

# 01.归因的两条路径

任何性能问题的归因，都可走两条互补的路径。

# 1.1 自顶向下：从体感到代码

用户感知（卡 / 慢）
   │  APDEX / Web Vitals
   ▼
请求级（哪类操作慢）
   │  RED 模型
   ▼
资源级（哪种资源饱和）
   │  USE 模型
   ▼
线程 / 进程级（哪个线程在做什么）
   │  off-CPU / on-CPU 分析
   ▼
函数级（哪个函数在烧 CPU / 在等待）
   │  火焰图 / Profile
   ▼
代码行

适用：从一个用户感知问题出发，尚未知道根因。

# 1.2 自底向上：从热点到调用方

函数 A 占 CPU 30%
   │
   ▼
被谁调用？（caller stack）
   │
   ▼
是否在关键路径？是否可消除？

适用：已经看到一个明显热点（如某 API 调用占 30% CPU），想确认它是否真的有害。

# 1.3 何时用哪种

场景	推荐路径
用户报"卡顿" / 监控告警	自顶向下
Profile 出明显热点	自底向上
偶发问题、原因不明	自顶向下，配合 trace
复盘已知问题	自底向上更直接

专家的常态是两条路同时走：自顶向下定位"层"，自底向上找到"点"，在中间相遇。

# 02.关键路径分析

# 2.1 关键路径的定义

借用项目管理的概念。在性能上下文中：

关键路径（Critical Path）：从"输入触发"到"用户感知完成"，决定整体时长的最长依赖链。

示例（启动）：

进程创建 ──▶ Application.onCreate ──▶ MainActivity.onCreate ──▶ 首屏 layout ──▶ 首屏 draw
                  │                          │
                  └─ 异步初始化（不在关键路径上）

只有关键路径上的耗时才影响用户感知；非关键路径的优化对体感无益。

# 2.2 寻找关键路径的方法

# A. Trace 时间轴分析

录制完整 trace（Perfetto / Instruments / DevTools），找到主线程上首尾相连的一系列任务，即为关键路径。

# B. 依赖图分析

把所有任务画成 DAG，节点为任务，边为依赖。关键路径 = DAG 上的最长路径。

# C. 反推法

从终点（首帧上屏）反向追问"它在等什么"，直到追到起点。

# 2.3 Amdahl 定律与优化天花板

              1
S = ───────────────────────
      (1 - p) + p / s

S：整体加速比
p：可加速部分占比
s：该部分的加速比

例子：

启动总耗时 1000ms，其中数据库初始化 400ms。
把数据库初始化优化到 100ms（4× 加速）。
整体提升 = 1000 / (600 + 100) = 1.43×（即从 1000ms 到 700ms）。

核心洞察：

优化收益的天花板 = 该部分占比。占比 5% 的代码优化到 0，整体最多提升 5%。
应优先优化占比最大的关键路径。
当某段已被优化到极致，剩余部分的 p 增大，需要重新评估优先级。

# 03.on-CPU 与 off-CPU 分析

# 3.1 on-CPU：忙的归因

on-CPU：线程实际占用 CPU 时间。

采集：周期性采样调用栈（如 99Hz），统计各栈出现频率。

适用：定位"CPU 在烧什么"。

典型工具：

Linux/Android：perf / simpleperf
macOS/iOS：Instruments Time Profiler
Web：DevTools Performance / Profiler API
嵌入式：perf / gprof

# 3.2 off-CPU：等的归因

off-CPU：线程因等待（IO / 锁 / 信号）而被调度出 CPU 的时间。

这是性能优化中最容易被忽视的部分：

用户感觉卡，但 CPU 不高 → 大概率是 off-CPU 问题。
主线程总耗时 100ms，其中 on-CPU 仅 30ms，剩余 70ms 全在等。

典型 off-CPU 来源：

来源	例子
磁盘 IO	读 SharedPreferences / 大文件
网络 IO	同步请求
锁等待	synchronized / mutex 竞争
跨线程同步	`wait/notify`、`Future.get`
跨进程通信	Binder / IPC
GC 等待	Stop-The-World

采集：

Android：atrace 配合 sched_switch tracepoint，或 eBPF
iOS：Instruments System Trace
Web：DevTools Performance（蓝色 idle / 黄色 task）

# 3.3 wakeup 与因果链

off-CPU 时间内，线程在等"被谁唤醒"。找到唤醒者，就找到了因果链。

线程 A：等锁 ───────── (off-CPU 50ms)─────── 拿到锁，继续
                                  ▲
                                  │ wakeup
线程 B：持有锁 ───── 释放锁 ──────┘

Linux 的 sched_wakeup tracepoint 可记录唤醒关系，是高级归因的核心。eBPF 工具如 offcputime 能直接产出 off-CPU 火焰图。

实战意义：当卡顿发生时，主线程 off-CPU 50ms，找到唤醒者是某个 Binder 线程在等远程进程返回，归因瞬间清晰。

# 04.火焰图（Flame Graph）

由 Brendan Gregg 发明，是性能归因最重要的可视化工具。

# 4.1 火焰图的构造原理

输入：大量调用栈样本（每个样本是从根到叶的栈帧序列 + 计数）。

构造：

把所有栈对齐根部、合并相同前缀。
横轴：合并后的"宽度"= 出现次数（耗时占比）。
纵轴：栈深度。
每一格 = 一个栈帧，宽度 = 该函数（含被调用的子函数）总耗时。

关键约定：

宽度有意义：越宽 = 越耗时。
横轴顺序无意义：通常按函数名字典序排列。
颜色无意义：通常随机，便于区分（部分变种用颜色编码语言层）。

          [main]                       <- 根，宽度 = 100%
           │
   ┌───────┼─────────┐
[init][render][network]                <- 子函数，宽度反映耗时占比
   │      │
[gc][layout][raster]
       │       │
   [measure][gpu_submit]               <- 越往上越是底层 / 叶子函数

# 4.2 火焰图的解读方法

# 五个看点

看点	解读
宽柱顶端	该函数自身耗时大（"平顶"），是优化重点
宽且分叉	该函数耗时由多个子函数贡献，需逐个看
窄但深	调用链很深但总耗时不高，关注是否有冗余调用
重复出现的栈	同一函数在多处出现，可能是热点工具方法
意外的栈	不应出现在该路径的函数（如 UI 线程出现 IO）

# 关键问句

1. 宽度最大的"平顶"是谁？  → 自身耗时最高的函数
2. 它是预期的吗？           → 业务必要 vs 可优化
3. 它能被消除 / 减少 / 异步化吗？
4. 它的 caller 在关键路径上吗？

# 4.3 火焰图的变种

类型	用途
on-CPU Flame Graph	默认，看 CPU 时间分布
off-CPU Flame Graph	看等待时间分布，定位 stall 问题
Differential / Diff	对比两个版本的火焰图，红色 = 退化，蓝色 = 改善
Memory Flame Graph	横轴 = 分配字节数，定位内存热点
Allocation Flame Graph	横轴 = 分配次数，定位频繁分配
Wakeup Flame Graph	显示唤醒因果，归因 off-CPU
Inverted Flame Graph (Icicle)	倒过来，从根看向叶

Differential Flame Graph 的威力：发布前后跑一次，红色部分一目了然 —— 回归排查神器。

# 4.4 常见误读

# 误读 A：把"宽"当成"慢的原因"

真相：宽 = 耗时占比高，但不一定是"问题"。

一个 App 必然要做的事（如 layout）就是宽的，不代表它有问题。
重点看：是否过宽（大于业务必要程度）。

# 误读 B：忽略 off-CPU

仅 on-CPU 火焰图看不到等待。卡顿很多源于 off-CPU。

# 误读 C：误以为高度代表耗时

高度只代表栈深度，不代表耗时。永远只看宽度。

# 误读 D：被采样率欺骗

低采样率下，火焰图可能漏掉短任务。结论需结合采样率与样本量。

# 05.归因决策树

下面给出 4 个最常见性能问题的决策树。遇到对应问题时，按树走一遍。

# 5.1 卡顿归因决策树

单帧 > 16.67ms 出现
   │
   ├── on-CPU 占主导？─── Yes ──► 火焰图找平顶
   │                            │
   │                            ├─ 业务计算 → 算法 / 异步化
   │                            ├─ 渲染计算 → 减少视图层级 / 减少重绘
   │                            ├─ 内存分配密集 → 对象池 / 复用
   │                            └─ 解码 / 压缩 → 异步 / 缓存
   │
   └── off-CPU 占主导？── Yes ──► off-CPU 火焰图 + wakeup 链
                                │
                                ├─ IO Wait → 异步 / 缓存
                                ├─ 锁等待 → 减少临界区 / 无锁数据结构
                                ├─ Binder/IPC → 批量 / 缓存远端结果
                                ├─ GC 停顿 → 减少分配 / 降低内存压力
                                └─ Page Fault → mmap 预热 / 减少冷数据

# 5.2 内存增长归因决策树

内存持续增长
   │
   ├── 增长是否随业务功能开关？──► 关闭 X 后不再增长 = X 是源头
   │
   ├── 是 Java/Heap 增长？─── Yes ──► Heap dump → 支配树
   │                                │
   │                                ├─ 单类对象数异常 → 泄漏
   │                                ├─ Bitmap 占大头 → 图片缓存策略
   │                                └─ String 占大头 → 字符串拼接 / 重复
   │
   ├── 是 Native 增长？──── Yes ──► malloc trace / hprof
   │                                │
   │                                ├─ 第三方 SO 库 → SO 内泄漏排查
   │                                └─ JNI 引用未释放 → GlobalRef 检查
   │
   └── 是匿名映射 (mmap)？  Yes ──► smaps 分析
                                  │
                                  └─ 大段匿名 mmap → 检查 NIO Buffer / 文件映射

# 5.3 启动慢归因决策树

冷启动 > 目标值
   │
   ├── 进程创建到 onCreate 慢？─► dex 加载 / SO 加载 / 类预热
   │
   ├── Application.onCreate 慢？─► 同步初始化项目 → 异步化 / 懒加载
   │
   ├── Activity 首帧前慢？─────► 主线程被阻塞？或视图层级过深？
   │
   └── 首帧到 TTI 慢？────────► 主线程被业务请求阻塞 → 关键路径分析

# 5.4 网络慢归因决策树

请求耗时 P95 高
   │
   ├── DNS 时间长？──────► DNS 缓存 / HTTPDNS
   │
   ├── Connect 时间长？──► 长链接 / 连接复用
   │
   ├── TLS 时间长？─────► Session Resumption / TLS 1.3 / 0-RTT
   │
   ├── TTFB 长？───────► 服务端慢 / 弱网 / 队头阻塞 → HTTP/2、HTTP/3
   │
   └── Body 下载慢？───► 弱网 / Body 过大 → 压缩 / 分片 / CDN

# 06.混淆变量识别

归因最容易被混淆变量误导。识别清单：

混淆	表现	真因
时间序列偏差	改完代码后下午测，比上午快	设备温度差异（降频）
缓存效应	第二次跑都快	OS Page Cache、JIT 编译、磁盘 cache
测试数据偏差	测试集小 / 单一	真实分布不同
平台版本偏差	仅在某 OS 版本上慢	OS 自身问题，非业务问题
后台干扰	偶发慢	后台任务抢占资源
Profiler 自身影响	加上 profiler 后慢 5 倍	工具开销，不是真实情况

对策：

至少做 2 台同型号、不同测试者的独立验证。
切片分析（按时段 / 网络 / 系统版本）。
区分 profile 模式与生产模式数据。

# 07.归因案例演练

# 案例：列表滚动严重掉帧（跨平台同构）

现象：

Android：单帧 P99 = 48ms（应 < 16ms），FPS 平均 42。
iOS：相同列表，单帧 P99 = 38ms。
Web：相同列表，单帧 P99 = 55ms。
三端皆有问题，但程度不同。

自顶向下走一遍：

# Step 1 - APDEX

体感差，确实是性能问题，进入度量。

# Step 2 - RED

慢的是哪类操作？滚动单帧（duration）。错误率正常。

# Step 3 - USE

CPU 占用：Android 65%、iOS 50%、Web 70%。
IO Wait：低。
内存正常。
→ 不是资源饱和问题。

# Step 4 - on-CPU vs off-CPU

Android 主线程 on-CPU 70%，off-CPU 30%。
iOS 主线程 on-CPU 75%，off-CPU 25%。
Web 主线程 on-CPU 85%。

→ 主要是 on-CPU 问题。off-CPU 还有一段，需查。

# Step 5 - 火焰图

三端火焰图共同特征：

[ScrollView/ListView/UICollectionView/IntersectionObserver Scroll]
    │
    └── [bindViewHolder / cellForRow / render]
            │
            ├── [Bitmap.decode / UIImage init / Image decode]   ← 平顶 30%
            ├── [setText / NSAttributedString / innerHTML]      ← 平顶 20%
            └── [layout / autolayout / reflow]                  ← 平顶 25%

# Step 6 - 跨平台同构归因

层	三端共性根因
应用	列表项含大图，滚动时同步解码
应用	文本富文本布局复杂
运行时	滚动频繁触发 Layout，无缓存复用
系统	滚动期间需保持 60fps，主线程预算极紧

# Step 7 - 平台特异

平台	额外因素
Android	RecyclerView ViewHolder 复用率低（不同 itemType 太多）
iOS	自动布局约束嵌套深，触发多次 layoutSubviews
Web	布局抖动（read/write 交替触发 reflow）

# Step 8 - 跨平台通用治理 + 平台特化

通用治理（适用三端）：

图片预解码（IO 线程） + 内存缓存。
富文本渲染结果缓存。
视图复用率监控（要求复用率 > 90%）。

平台特化：

Android：itemType 收敛到 ≤ 3 种；启用 Prefetch。
iOS：用 frame 布局替代约束（极致场景）；预排版。
Web：DOM 操作分批，避免 layout thrashing。

# Step 9 - 求证（详见《03.求证方法论》）

通用 + 特化方案上线后：

平台	P99 帧时长前	后	改善
Android	48ms	17ms	-65%
iOS	38ms	14ms	-63%
Web	55ms	20ms	-64%

关键洞察：通用治理贡献了 70%+ 改善，平台特化贡献 30%。这印证了"原理跨端通用，差异只是实现"的核心命题。

# 一句话总结

归因不是猜，而是按路径走。
自顶向下定位"层"，自底向上定位"点"，在火焰图上相遇。

上次更新: 2026/06/07, 10:26:12

← 数据采集与观测性能预算防劣化→