06.计算机总线系统设计

# 06.计算机总线系统设计

# 目录介绍

01.工作案例引入
02.总线的基本概念
03.总线的分类
04.总线的关键指标
05.总线仲裁
06.总线标准演进
07.现代总线架构
08.综合案例NVMe读取
09.思考题与作业

# 01.工作案例引入

# 1.1 双实例性能鸿沟

DBA 小刘接到线上告警：一台 2U 双路服务器上跑着两个 MySQL 实例 mysql-A 和 mysql-B，QPS 压力相同、配置相同、数据量相同，但 mysql-B 的 p99 延迟比 mysql-A 高了整整 30%。

小刘的第一反应是磁盘或网络的问题，但 iostat、netstat 的数据完全一致；CPU 利用率也相近（都在 70% 左右），甚至 mysql-B 的 CPU 利用率还略低一点。

继续排查，他注意到一个细节：

$ numactl --hardware
available: 2 nodes (0-1)
node 0 cpus: 0-23   memory size: 128 GB
node 1 cpus: 24-47  memory size: 128 GB
node distances:
node   0   1
  0:  10  21
  1:  21  10    # 跨节点访问代价是本地的 2.1 倍

$ ps -o pid,psr,comm -p $(pidof mysqld)
 PID PSR COMMAND
1234  5   mysqld   # mysql-A：绑定在 node 0 的 CPU 5，内存也在 node 0
5678  32  mysqld   # mysql-B：绑定在 node 1 的 CPU 32，但内存却大多分配在 node 0！

原因找到了：mysql-B 启动时运维误操作把 CPU 亲和性设到了 node 1，但 numa_balancing 没及时迁移内存，大量缓冲池页还留在 node 0。每次查询都要跨 QPI/UPI 总线去 node 0 取内存，延迟从本地 ~80ns 飙到 ~150ns。

# 1.2 排查思路与结论

numactl --cpunodebind=0 --membind=0 mysqld ... 重启后，mysql-B 的 p99 延迟立刻回到与 A 一致的水平。

这个事故背后的关键认知：

在现代多路服务器里，"内存"不是一块；CPU 访问不同内存的代价差很多。
"总线"也早就不是一条共享的铜线，而是由 CPU 内部总线、QPI/UPI、PCIe、DMI、SATA 等多层互联网络组成。理解哪条路径有多宽、多远，才能排查性能问题。

# 1.3 本文要回答的问题

总线为什么要分层？数据总线、地址总线、控制总线各自的角色是什么？
并行总线速度本应更快，为什么 PCIe、USB 3、SATA 都改用串行？
多个设备同时请求总线，由谁决定先后顺序？
南北桥去哪了？现代 CPU 为什么把总线控制器集成进来？
NUMA 架构对我们写代码有什么影响？为什么 mysql-B 会慢 30%？

从 Bug 到总线原理的追问链：

带着这些问题往下读，文末我们会用一张"NVMe SSD 读 4KB"的完整路径图把总线全章串起来。

# 02.总线的基本概念

# 2.1 什么是总线

总线（Bus）是计算机各部件之间传输信息的公共通道。它是一组共享的导线，连接计算机的各个功能部件，用于在它们之间传输数据、地址和控制信号。

类比理解：如果计算机是一座城市，各个部件（CPU、内存、硬盘、显卡）是城市里的建筑，那总线就是连接这些建筑的公共马路。

点对点连接 vs 共享总线：

# 2.2 为什么需要总线

疑惑：为什么不给每两个设备之间都拉一条专线？那样不是更快吗？

答疑：

方案	优点	缺点
点对点全连接	每对设备独占通道，不争抢	连线数量爆炸（N²级别），扩展性差
共享总线	连线少、易扩展、成本低	同一时刻只有一对设备能通信

实际上，现代计算机采用的是混合方案：

核心高速通路（CPU↔内存）使用专用连接
其他设备通过共享总线或交换网络连接

# 2.3 总线的基本特征

总线由三组信号线构成：

一次总线数据传输的过程（总线事务）：

# 03.总线的分类

# 3.1 按功能分类

总线类型	连接对象	特点
片内总线	CPU内部各部件	速度最快，在CPU芯片内部
系统总线	CPU、内存、I/O接口	计算机系统的"主干道"
I/O总线	I/O接口与外设	连接各种外部设备

三层功能的直观关系：片内总线是"芯片里的走廊"，系统总线是"主楼到配楼的大马路"，I/O 总线是"配楼里的小巷子"——越往里越快、越窄；越往外越慢、越宽。

# 3.2 按层次分类

图注：越靠上层的总线越快但范围越窄，越靠下层总线覆盖面越大但速度越慢，这种"分层+分级"的设计是为了在性能和成本之间取得平衡。

现代计算机的总线层次：

  CPU 内部
  ┌──────────┐
  │ 寄存器总线 │ ← 速度最快，连接CPU内部寄存器
  │ 内部总线   │ ← 连接ALU、控制器、缓存
  └────┬─────┘
       │ 前端总线/系统总线
  ┌────┴─────┐
  │   内存总线  │ ← 连接CPU和内存
  └────┬─────┘
       │ PCIe总线
  ┌────┴─────┐
  │ I/O总线   │ ← 连接显卡、网卡、SSD等
  └────┬─────┘
       │ USB/SATA等
  ┌────┴─────┐
  │ 外设接口   │ ← 连接键盘、鼠标、外接硬盘等
  └──────────┘

# 3.3 按传输方式分类

并行总线 vs 串行总线：

疑惑：并行传输一次发多位数据，应该比串行快才对，为什么现代总线（PCIe、USB3）都改用串行了？

答疑：

技术演变：PCI（并行，133MB/s）→ PCIe（串行，每通道~2GB/s）

这是一个违反直觉但非常经典的"串行打败并行"的案例。

# 04.总线的关键指标

# 4.1 总线宽度

总线宽度指数据总线一次能传输的数据位数。

8位总线：一次传 1字节  （早期的ISA总线）
16位总线：一次传 2字节
32位总线：一次传 4字节  （PCI总线）
64位总线：一次传 8字节  （现代内存总线）

# 4.2 总线频率

总线频率指总线每秒钟的传输周期数。

内存总线频率：DDR4-3200 → 等效频率 3200MHz
PCIe 4.0：16 GT/s（每通道每秒传输160亿次）
PCIe 5.0：32 GT/s

# 4.3 总线带宽

总线带宽 = 总线宽度 × 总线频率，表示单位时间内的最大数据传输量。

PCIe 4.0 x16 带宽计算：
  每通道速率: 16 GT/s
  每次传输: 1 bit（串行）
  编码效率: 128b/130b ≈ 98.5%
  单通道带宽: 16 × 1 × 0.985 / 8 ≈ 1.97 GB/s
  x16: 1.97 × 16 ≈ 31.5 GB/s（双向各 31.5 GB/s）

PCIe Lane 与带宽的关系：

# 4.4 总线性能瓶颈

疑惑：总线带宽足够了，为什么系统还是有时候感觉慢？

# 05.总线仲裁

# 5.1 为什么需要仲裁

总线是共享资源，同一时刻只能有一个设备作为主设备控制总线。当多个设备同时请求使用总线时，就需要仲裁（Arbitration）机制来决定谁先用。

# 5.2 集中仲裁

由一个中央仲裁器统一决定。

链式查询（菊花链）：

图注：授权信号沿链路依次传递，离仲裁器近的设备容易抢到总线，远端设备可能"饿死"。

仲裁器 → 设备1 → 设备2 → 设备3 → 设备4
  │                                    
  └── 总线授权信号沿链路依次传递
      离仲裁器越近的设备优先级越高
      
优点：简单，线路少
缺点：离得远的设备可能饿死

计数器查询：

仲裁器内有计数器，轮流给每个设备机会
  第1次：授权设备1
  第2次：授权设备2
  第3次：授权设备3
  ...循环

优点：公平
缺点：实现稍复杂

# 5.3 分布仲裁

没有中央仲裁器，每个设备都参与仲裁决策。

每个设备发出自己的优先级编号到仲裁总线
所有设备比较优先级
优先级最高的设备获得总线控制权

类似于多人同时出牌，点数最大的赢

# 06.总线标准演进

# 6.1 ISA到PCI

ISA (1981)：
  16位数据总线，8MHz
  带宽：16MB/s
  IBM PC的标准总线

PCI (1992)：
  32/64位数据总线，33/66MHz
  带宽：133/533 MB/s
  支持即插即用（Plug and Play）
  首次实现自动配置设备

# 6.2 PCI到PCIe

疑惑：PCI已经很成功了，为什么要发明PCIe？

PCI的问题：
  1. 共享总线 → 所有设备争抢同一条总线
  2. 并行传输 → 频率无法继续提升（串扰限制）
  3. 单向半双工 → 不能同时收发

PCIe的解决方案：
  1. 点对点连接 → 每个设备有专属通道
  2. 串行传输 → 频率可以做到GHz级别
  3. 全双工 → 可以同时收发

# 6.3 PCIe核心设计

PCIe 的分层架构（类似网络协议栈）：

PCIe 的通道（Lane）概念： x1: 1个通道，~2GB/s (PCIe 4.0) → 网卡、声卡 x4: 4个通道，~8GB/s → NVMe SSD x8: 8个通道，~16GB/s x16: 16个通道，~32GB/s → 高端显卡

# 6.4 总线标准对比

标准	类型	带宽	应用
ISA	并行共享	16MB/s	历史(PC)
PCI	并行共享	133MB/s	历史
PCIe 3.0 x16	串行点对点	16GB/s	显卡
PCIe 4.0 x16	串行点对点	32GB/s	显卡/SSD
PCIe 5.0 x16	串行点对点	64GB/s	最新
USB 3.2	串行	2.5GB/s	外接设备
SATA III	串行	600MB/s	硬盘
NVMe(PCIe)	串行点对点	~7GB/s(PCIe4 x4)	SSD

# 07.现代总线架构

# 7.1 传统南北桥架构

图注：北桥是整个系统的"咽喉"——CPU 访问内存或显卡都必须过北桥，当多个高速设备同时请求时，北桥成为性能瓶颈。

早期 PC 架构（~2008年之前）：

       CPU
        │
  ┌─────┴─────┐
  │  北桥芯片   │ ← 高速总线枢纽
  │(Northbridge)│    连接CPU、内存、显卡
  └─────┬─────┘
        │
  ┌─────┴─────┐
  │  南桥芯片   │ ← 低速总线枢纽
  │(Southbridge)│    连接USB、SATA、PCI、音频等
  └───────────┘

北桥处理高速设备，南桥处理低速设备
北桥是系统的性能瓶颈

# 7.2 现代集成架构

优势：

CPU 直接与内存通信，不再经过北桥，延迟大幅降低
PCIe 设备直连 CPU，带宽更高
代价：DMI 是 CPU ↔ PCH 的单一通道，所有低速设备都走这条路——但有专有协议，不会像旧式共享总线那样严重竞争

# 7.3 NUMA架构

疑惑：在多CPU服务器中，总线是怎么设计的？

图注：每个节点都有自己的 CPU+内存"私域"，跨节点访问需经 QPI/UPI 总线，延迟几乎翻倍，这就是本文开头 MySQL 30% 性能差距的根因。

UMA（统一内存访问）：
  CPU0 ──┐
         ├── 共享总线 ── 内存
  CPU1 ──┘
  
  问题：多个CPU争抢同一条总线，带宽成为瓶颈

NUMA（非统一内存访问）：
  CPU0 ── 本地内存0
    │
  互联通道（QPI/UPI）
    │
  CPU1 ── 本地内存1
  
  每个CPU优先访问本地内存（快），也可以访问远程内存（慢）
  
  本地访问延迟: ~80ns
  远程访问延迟: ~150ns（慢了近一倍）

# 7.4 对编程的影响

疑惑：总线这么底层，对写代码有什么影响？

// NUMA感知编程示例
// 在NUMA系统上，线程应该访问本地内存以获得最佳性能

// Java中可以通过JVM参数启用NUMA感知
// -XX:+UseNUMA

// C/C++可以使用numa库
// #include <numa.h>
// void *ptr = numa_alloc_local(size);  // 在本地节点分配内存

// 错误做法：在CPU0上创建线程，但数据在CPU1的内存上
// 正确做法：让线程和它要访问的数据在同一个NUMA节点上

PCIe带宽对实际应用的影响：

  NVMe SSD (PCIe 4.0 x4)：
    理论带宽: 8GB/s
    实际顺序读: ~7GB/s
    实际随机读: ~1GB/s（受到SSD内部并行度和延迟限制）

  显卡 (PCIe 4.0 x16)：
    理论带宽: 32GB/s
    如果降级到 x8：带宽减半，但对大多数游戏影响<5%
    因为游戏的数据大部分在显存中，CPU-GPU数据交换不是瓶颈
    
    但对AI训练影响大：需要频繁在CPU和GPU之间传输大量数据

# 08.综合案例NVMe读取

现在我们把全章内容串成一个完整的故事：进程 A 调用 pread(fd, buf, 4096, offset) 从 NVMe SSD 读 4KB 数据，这 4KB 要穿越多少段总线？每一段是什么类型？谁来仲裁？

# 8.1 全景路径图

                ┌────────────────────────────────────┐
                │           CPU 芯片内部               │
                │                                     │
  寄存器 ←片内总线→ L1/L2/L3 Cache                     │
      ↑                                               │
      │ 内部 Ring/Mesh 总线                           │
      ↓                                               │
  集成内存控制器(IMC) ──DDR 总线──> DRAM (64位/3200MT/s)│
                                                      │
  集成 PCIe Root Complex                              │
                │                                     │
                │ PCIe 4.0 x4 (~8 GB/s 理论带宽)       │
                ↓                                     │
  ┌──────────────────┐                                │
  │  NVMe SSD 控制器  │── 闪存通道 ──> NAND Flash 芯片 │
  └──────────────────┘                                │
                                                      │
                │ DMI 4.0                              │
                ↓                                     │
           PCH (平台控制集线器)                        │
                │                                     │
                ├── SATA 总线 ──> 机械硬盘             │
                ├── USB 总线 ──> 键盘/鼠标             │
                └── LPC/SPI ──> BIOS/EC               │
                └────────────────────────────────────┘

# 8.2 10个步骤拆解

步骤	发生位置	涉及总线	关键动作
① 用户态调用 `pread`	CPU	片内总线	指令走流水线，MMU 查 TLB
② 系统调用陷入内核	CPU	片内总线	特权级切换，切到内核栈
③ 内核构造 NVMe Submission Queue Entry	CPU → 内存	IMC → DDR 总线	CPU 把命令写进 DRAM 中的 SQ，地址总线选行列，数据总线 64 位传命令
④ CPU 通过 MMIO 敲 NVMe SSD 的门铃寄存器	CPU → SSD	PCIe 事务层包 (TLP)	控制总线发 Write 信号，地址总线定位 BAR，数据总线传入新 SQ tail 值
⑤ SSD 控制器从 SQ 取命令	SSD → 内存	PCIe DMA（SSD 当主设备）	SSD 主动向内存发起 DMA 读，总线仲裁决定它与 CPU 谁先用 PCIe
⑥ SSD 内部从 NAND 读出 4KB	SSD	闪存通道	与 CPU 解耦，延迟 `~50μs`
⑦ SSD 通过 DMA 把 4KB 写入内存 `buf` 所在物理页	SSD → 内存	PCIe x4 + IMC + DDR	PCIe 传 64 字节 / TLP，共 64 个 TLP；写入 DRAM 时 IMC 做行列选通
⑧ SSD 写完成，往 CQ 写一条完成条目	SSD → 内存	PCIe + DDR	再一次 DMA 写
⑨ SSD 发 MSI-X 中断给 CPU	SSD → CPU	PCIe + APIC	用控制总线的中断信号而不是拉低物理引脚
⑩ 内核唤醒进程 A，`pread` 返回	CPU	片内总线	切回用户态，进程看到 4KB 数据

# 8.3 知识对号入座

本章概念	在这次 I/O 中的体现
数据/地址/控制三总线	步骤 ③ 中 CPU 对 DRAM 的一次写，地址总线选行列，控制总线发 Write，数据总线搬 64 位
并行总线	DDR4 内存总线仍是 64 位并行（短距离、时序可控）
串行总线	PCIe 4.0 x4 是 4 条独立串行差分对，一次传 1 bit、但 16 GT/s
总线仲裁	步骤 ⑤ ⑦，CPU 和 SSD 都想用 PCIe 和内存，Root Complex 按优先级/轮询仲裁
带宽 vs 延迟	4KB 的 ⑦ 只要 `~1μs`（带宽足），但整次 `pread` 要 `~60μs`（瓶颈是 ⑥ NAND 延迟）
PCIe 分层	④ ⑤ ⑦ ⑧ 都是事务层 TLP，数据链路层保证可靠传输，物理层负责串行 SerDes
南北桥 → PCH	因为 PCIe Root 直连 CPU，所以 NVMe 没走 PCH；但键鼠仍走 PCH
NUMA	如果 `buf` 所在物理页在 node 1 内存，而 SSD 的 PCIe 通道挂在 node 0 的 CPU 上，DMA 还要再经 UPI 跨节点，延迟多 `~70ns`
位宽 × 频率 = 带宽	PCIe 4.0 x4 = 16 GT/s × 4 × 128b/130b / 8 ≈ 7.88 GB/s

# 8.4 回到开头案例

再看本文开头的 30% 性能鸿沟：mysql-B 每次查 buffer pool 都要从 node 1 的 CPU 跨 UPI 到 node 0 的内存控制器再到 DRAM，本来 80ns 的访问变成 150ns。对于一个 OLTP 场景，每条 SQL 要访问几十到几百个内存页，差距被成倍放大，最终体现为 p99 延迟 +30%。

理解了"总线是多层的、有远有近"这一点，numactl --cpunodebind --membind、UseNUMA、thread affinity 这些看起来玄学的配置就都讲得通了。

# 09.思考题与作业

# 9.1 基础理解题

一次总线事务为什么需要数据、地址、控制三种总线协同？缺了哪一种会怎样？
为什么并行总线频率很难超过几百 MHz，而串行总线能轻松做到 10+ GHz？
链式仲裁的"饿死"问题是什么？如何改造成不会饿死的仲裁方式？
为什么 PCIe 是点对点而不是共享总线？这对带宽计算有什么影响？
在 NUMA 系统上，"本地内存访问"和"远程内存访问"的延迟差大约是多少？差别主要来自哪段路径？

# 9.2 进阶思考题

一个 PCIe 4.0 x16 的显卡，如果插到只有 x8 电气通道的插槽上，你能通过什么命令或工具看到它"降级"到了 x8？
集成内存控制器（IMC）从南桥挪进 CPU，对延迟、带宽、可扩展性各产生了什么影响？有什么代价？
为什么 NVMe 走 PCIe 而 SATA SSD 已被淘汰出高端场景？差距主要在带宽还是协议栈？
DMA 写内存时，CPU 的 Cache 怎么办？会不会读到旧数据？（提示：Cache Coherency）
在 numactl --interleave=all 下运行的程序，总线的使用模式和本地绑定有什么不同？适合什么场景？

# 9.3 动手作业

作业 1：观察本机的 NUMA 拓扑和总线层次

numactl --hardware          # 节点数、每节点 CPU 和内存
lscpu                        # 看 NUMA node(s)
lspci -tv                    # 以树形展示 PCIe 总线层次
lspci -vv -s <NVMe BDF> | grep -E "LnkCap|LnkSta"  # 看 NVMe 真实链路宽度

把输出画成一张"本机总线拓扑图"，标出哪些是 PCIe、哪些是 DDR、哪些走 PCH。

作业 2：用 fio 验证 NVMe 的带宽 vs 延迟

写一个 fio 配置，分别做：

顺序读 1MB（观察带宽是否接近 PCIe x4 理论值）
随机读 4KB，iodepth=1（观察单次延迟）
随机读 4KB，iodepth=32（观察吞吐量）

对比三组结果，解释为什么顺序读拉满带宽、但随机深度 1 却只能打到几百 MB/s。

作业 3：复现 NUMA 性能陷阱

在双路服务器上写一个简单的内存扫描程序（malloc 2GB 随机读），分别用：

numactl --cpunodebind=0 --membind=0 ./bench     # 本地
numactl --cpunodebind=0 --membind=1 ./bench     # 跨节点

记录两次的耗时，解释为什么会有差异。如果没有 NUMA 机器，可以用云厂商的 NUMA 裸金属实例（如火山/AWS Bare Metal）复现。

上次更新: 2026/07/10, 14:57:20

← 05.计算机输入输出设备 07.计算机指令编程原理→