元帅的小站

引言

嵌入式开发中，RAM 是最稀缺的资源。一颗 nRF52832 只有 64KB RAM，STM32F103C8T6 只有 20KB，有些低成本 MCU 甚至只有 4KB 或 2KB。当你看到链接器报出这个错误时：

region `RAM' overflowed by 2048 bytes

或者程序跑着跑着就莫名其妙地崩溃（栈溢出），就该认真审视 RAM 的使用了。

RAM 优化不是"等出了问题再说"的事——在嵌入式项目中，它应该从设计阶段就开始考虑。本文将系统地梳理 RAM 的使用去向，并提供从代码级到架构级的各种优化手段。

RAM 都用在了哪里

要优化 RAM，首先得知道它被谁用了。嵌入式系统的 RAM 被四个部分瓜分：

RAM 高地址
┌──────────────┐ ← _estack（栈顶）
│     栈       │ ← 局部变量、函数调用上下文
│   (Stack)    │   向下增长 ↓
│              │
├──────────────┤
│   空闲区域    │ ← 栈和堆之间的剩余空间
├──────────────┤
│     堆       │ ← malloc 动态分配
│   (Heap)     │   向上增长 ↑
├──────────────┤
│    .bss      │ ← 未初始化的全局/静态变量（运行时清零）
├──────────────┤
│    .data     │ ← 已初始化的全局/静态变量（从 Flash 拷贝）
└──────────────┘ ← RAM 起始地址（0x20000000）

区域	存放内容	特点
.data	`int g_count = 100;` 等有初始值的全局/静态变量	编译时确定大小，占 Flash（存初始值）+ RAM（运行时）
.bss	`static char buffer[256];` 等无初始值的全局/静态变量	编译时确定大小，只占 RAM，启动时清零
堆	`malloc()` 动态分配的内存	运行时大小变化，向高地址增长
栈	局部变量、函数参数、返回地址、中断上下文	运行时大小变化，向低地址增长

用工具精确定位

arm-none-eabi-size：快速查看各段大小

$ arm-none-eabi-size firmware.elf
   text    data     bss     dec     hex filename
  45678     312    8456   54446    d4ae firmware.elf

RAM 静态占用 = data + bss = 312 + 8456 = 8768 字节
还要加上栈和堆的运行时占用

map 文件：精确到每个变量的占用

编译时加 -Wl,-Map=firmware.map，打开 map 文件找 .bss 段：

.bss           0x20000138     0x2108
 .bss.ble_rx_buffer
                0x20000138     0x1000 ble_service.o
 .bss.log_buffer
                0x20001138     0x0800 logger.o
 .bss.sensor_data
                0x20001938     0x0100 sensor.o
 .bss.g_config
                0x20001a38     0x0040 config.o

一目了然：ble_rx_buffer 占了 4096 字节，log_buffer 占了 2048 字节——这两个 buffer 就吃掉了 6KB RAM。

全局变量与静态变量优化

全局变量和静态变量（.data + .bss）是 RAM 占用的大头，也是最容易优化的部分。

缩小 buffer 大小

这是最直接有效的方法。很多 buffer 在设计时预留了远超实际需求的大小：

// 优化前：BLE 接收缓冲区 4096 字节
static uint8_t ble_rx_buffer[4096];

// 优化后：实际最大包长 244 字节，双缓冲也只需要 512
static uint8_t ble_rx_buffer[512];

// 优化前：日志缓冲区 2048 字节
static char log_buffer[2048];

// 优化后：日志逐条发送，不需要缓存多条，256 字节足够
static char log_buffer[256];

优化 buffer 大小前，先搞清楚实际使用场景中的最大数据量。不要"以防万一"开大 buffer——在嵌入式中，每个字节都有代价。

用 const 把只读数据移到 Flash

如果一个数组的值在运行时不会被修改，加 const 让它留在 Flash（.rodata 段），不占 RAM：

// 优化前：占 RAM（.data 段）
static uint8_t crc_table[256] = { 0x00, 0x07, 0x0E, ... };

// 优化后：占 Flash（.rodata 段），不占 RAM
static const uint8_t crc_table[256] = { 0x00, 0x07, 0x0E, ... };

字符串常量也是一样：

// 优化前：字符串数组在 RAM 中
static char *menu_items[] = { "Settings", "About", "Reset" };

// 优化后：字符串在 Flash 中
static const char * const menu_items[] = { "Settings", "About", "Reset" };

注意第二个 const 的位置——const char *const 表示指针本身和指向的内容都是常量。

选择合适的数据类型

很多变量根本不需要 32 位宽度：

// 优化前：所有变量都用 int（4 字节）
int battery_level;      // 0-100，1 字节就够
int sensor_count;       // 最多 10 个，1 字节就够
int error_code;         // 错误码不超过 255
int is_connected;       // 布尔值

// 优化后
uint8_t battery_level;  // 1 字节
uint8_t sensor_count;   // 1 字节
uint8_t error_code;     // 1 字节
bool is_connected;      // 1 字节

4 个变量从 16 字节减到 4 字节。单个变量看起来省得少，但全局变量多了之后效果很明显。

注意：局部变量在 ARM Cortex-M 上用 uint32_t 可能比 uint8_t 更高效（寄存器是 32 位的，小类型可能需要额外的截断指令）。这个优化主要针对全局/静态变量，因为它们直接占用 RAM 空间。

位域压缩标志位

大量布尔标志可以用位域压缩：

// 优化前：8 个标志占 8 字节
bool is_charging;
bool is_connected;
bool is_sleeping;
bool alarm_enabled;
bool screen_on;
bool dnd_mode;
bool low_battery;
bool firmware_updating;

// 优化后：8 个标志占 1 字节（或 4 字节含对齐）
typedef struct {
    uint8_t is_charging      : 1;
    uint8_t is_connected     : 1;
    uint8_t is_sleeping      : 1;
    uint8_t alarm_enabled    : 1;
    uint8_t screen_on        : 1;
    uint8_t dnd_mode         : 1;
    uint8_t low_battery      : 1;
    uint8_t firmware_updating: 1;
} SystemFlags;

static SystemFlags g_flags;  // 1 字节

或者更简单地用位操作：

static uint8_t g_flags = 0;
#define FLAG_CHARGING   (1 << 0)
#define FLAG_CONNECTED  (1 << 1)
#define FLAG_SLEEPING   (1 << 2)

// 设置标志
g_flags |= FLAG_CHARGING;
// 清除标志
g_flags &= ~FLAG_CHARGING;
// 检查标志
if (g_flags & FLAG_CONNECTED) { ... }

避免重复存储

检查是否有多个变量存储了相同或可以相互推导的信息：

// 优化前：重复存储
uint16_t adc_raw_value;       // ADC 原始值
float    battery_voltage;      // 电池电压（从 ADC 算出）
uint8_t  battery_percentage;   // 电池百分比（从电压算出）

// 优化后：只存原始值，其他按需计算
uint16_t adc_raw_value;

float get_battery_voltage(void) {
    return adc_raw_value * 3.3f / 4096.0f * 2;  // 实时计算
}

uint8_t get_battery_percentage(void) {
    float v = get_battery_voltage();
    // 查表或线性插值...
}

用计算换存储——Flash（代码空间）通常比 RAM 富裕得多。

栈空间优化

栈溢出是嵌入式中最隐蔽的 Bug 之一。栈从高地址向下增长，溢出后会覆盖 .bss 或堆的数据，导致各种诡异的运行时错误。

栈溢出的危害

覆盖全局变量 → 数据异常
覆盖堆管理结构 → malloc/free 崩溃
覆盖其他任务的栈（RTOS 场景）→ 多个任务同时出问题
触发 Hard Fault（访问了无效地址）

最可怕的是栈溢出不一定立即崩溃——可能只是某个全局变量被悄悄改了，Bug 在很久以后才暴露出来。

减小局部变量

大型局部变量会瞬间吃掉大量栈空间：

// 危险：1KB 局部数组
void process_packet(void)
{
    uint8_t temp_buffer[1024];  // 直接在栈上分配 1KB
    // ...
}

// 优化方案 1：用 static 移到 .bss 段（注意线程安全问题）
void process_packet(void)
{
    static uint8_t temp_buffer[1024];  // 不在栈上，但不可重入
    // ...
}

// 优化方案 2：用全局 buffer 复用
static uint8_t g_work_buffer[1024];
void process_packet(void)
{
    // 使用 g_work_buffer...
}

// 优化方案 3：减小 buffer，分块处理
void process_packet(void)
{
    uint8_t chunk[128];
    for (int i = 0; i < total; i += 128) {
        read_chunk(chunk, 128);
        process_chunk(chunk, 128);
    }
}

避免深层嵌套和递归

每次函数调用都会消耗栈空间（保存寄存器、返回地址、局部变量）：

// 危险：递归可能导致栈溢出
int parse_json_value(const char *json, int depth)
{
    if (json[0] == '{') {
        // 嵌套对象，递归解析
        return parse_json_object(json, depth + 1);  // 每层递归消耗栈
    }
    // ...
}

// 优化：改为迭代 + 显式栈
int parse_json_value(const char *json)
{
    int stack[MAX_DEPTH];  // 显式栈，大小可控
    int sp = 0;
    // 迭代解析...
}

在嵌入式中，原则上禁止使用无限递归。即使是有限递归，也要能准确估算最大递归深度对应的栈消耗。

栈水位监测

用"水印填充"技术监测栈的实际使用量：

// 启动时用特征值填充栈空间
#define STACK_FILL_PATTERN 0xDEADBEEF

void stack_paint(uint32_t *stack_bottom, uint32_t *stack_top)
{
    uint32_t *p = stack_bottom;
    while (p < stack_top) {
        *p++ = STACK_FILL_PATTERN;
    }
}

// 运行一段时间后检查：从栈底向上找第一个被覆盖的位置
uint32_t stack_get_used(uint32_t *stack_bottom, uint32_t *stack_top)
{
    uint32_t *p = stack_bottom;
    while (p < stack_top && *p == STACK_FILL_PATTERN) {
        p++;
    }
    return (uint32_t)(stack_top - p) * sizeof(uint32_t);
}

FreeRTOS 内置了这个功能：uxTaskGetStackHighWaterMark() 返回任务栈的历史最小剩余量（单位是 word）。

堆内存管理

malloc 在嵌入式中的风险

桌面程序随意 malloc/free 问题不大（虚拟内存兜底）。但在嵌入式中，堆的问题很多：

碎片化：反复 malloc/free 不同大小的块后，剩余空间被分割成无法使用的小片段。总剩余空间够，但分配不出连续的大块。

分配前:  [████████████████████████████]  连续 1KB
反复分配释放后:
         [██ ░░ ██ ░░░░ ██ ░░ ██ ░░░]
         总空闲 600B，但最大连续块只有 200B

不确定性：malloc 的执行时间不确定（取决于空闲链表的状态），在实时系统中可能违反时间约束。

无保护：堆溢出不会触发链接器报错（编译时不知道运行时要分配多少），只有运行时 malloc 返回 NULL 才知道。

内存池替代方案

对于固定大小的频繁分配/释放场景，内存池是最优解：

#define POOL_BLOCK_SIZE  64
#define POOL_BLOCK_COUNT 16

static uint8_t pool_memory[POOL_BLOCK_SIZE * POOL_BLOCK_COUNT];
static uint8_t pool_used[POOL_BLOCK_COUNT];  // 0=空闲, 1=已用

void *pool_alloc(void)
{
    for (int i = 0; i < POOL_BLOCK_COUNT; i++) {
        if (!pool_used[i]) {
            pool_used[i] = 1;
            return &pool_memory[i * POOL_BLOCK_SIZE];
        }
    }
    return NULL;  // 池满
}

void pool_free(void *ptr)
{
    int index = ((uint8_t *)ptr - pool_memory) / POOL_BLOCK_SIZE;
    if (index >= 0 && index < POOL_BLOCK_COUNT) {
        pool_used[index] = 0;
    }
}

内存池的优势：

零碎片：所有块大小相同，不存在碎片化问题
O(1) 分配（使用空闲链表时）：确定性好，适合实时系统
编译时确定大小：pool_memory 是静态数组，链接器能检查 RAM 是否够用

静态分配优先

嵌入式的最佳实践是能静态分配就不动态分配：

// 不推荐：运行时动态分配
sensor_t *sensors = malloc(MAX_SENSORS * sizeof(sensor_t));

// 推荐：编译时静态分配
static sensor_t sensors[MAX_SENSORS];

静态分配的好处：

编译时就知道 RAM 够不够用
不会有碎片化和内存泄漏
不需要检查 malloc 返回值

编译器辅助手段

剔除未引用的数据

GCC 的 -fdata-sections 会把每个全局变量放在独立的段中，配合链接器的 --gc-sections 可以自动剔除未引用的变量：

# 编译选项
CFLAGS += -fdata-sections -ffunction-sections

# 链接选项
LDFLAGS += -Wl,--gc-sections

优化前后对比：

# 优化前
$ arm-none-eabi-size firmware.elf
   text    data     bss     dec
  45678     312    8456   54446

# 加上 gc-sections 后
$ arm-none-eabi-size firmware.elf
   text    data     bss     dec
  42100     280    7200   49580

bss 从 8456 减到 7200——1256 字节的未引用全局变量被自动清除了。

结构体对齐与填充

编译器为了满足对齐要求，会在结构体成员之间插入填充字节：

// 优化前：有填充，12 字节
struct SensorData {
    uint8_t  type;       // 1 字节
    // 3 字节填充（对齐到 4 字节）
    uint32_t timestamp;  // 4 字节
    uint16_t value;      // 2 字节
    // 2 字节填充（对齐到 4 字节）
};  // sizeof = 12

// 优化后：按大小降序排列成员，8 字节
struct SensorData {
    uint32_t timestamp;  // 4 字节
    uint16_t value;      // 2 字节
    uint8_t  type;       // 1 字节
    // 1 字节填充
};  // sizeof = 8

从 12 字节减到 8 字节，省了 33%。如果有 100 个这样的结构体实例，就省了 400 字节。

规则：把大的成员放前面，小的放后面，让编译器少插填充。

更激进的方式是用 __attribute__((packed)) 强制取消对齐：

struct __attribute__((packed)) SensorData {
    uint32_t timestamp;
    uint16_t value;
    uint8_t  type;
};  // sizeof = 7，无填充

但 packed 有性能代价：在 ARM Cortex-M 上，非对齐访问可能需要两次总线操作（某些旧内核甚至会触发 Hard Fault）。仅在确实需要极限压缩且访问不频繁时使用。

将大数据表放入 Flash

用 __attribute__((section)) 可以手动控制数据放到 Flash：

// 正常方式：const 自动放到 .rodata（Flash）
const uint16_t sin_table[360] = { ... };  // 720 字节在 Flash

// 如果编译器没有正确优化，可以强制指定段
__attribute__((section(".rodata")))
const uint16_t sin_table[360] = { ... };

数据结构与算法优化

环形缓冲区复用内存

环形缓冲区（Ring Buffer）是嵌入式中最常用的数据结构，用固定大小的内存处理流式数据：

typedef struct {
    uint8_t  buffer[256];
    uint16_t head;
    uint16_t tail;
} RingBuffer;

// 写入：只移动 head 指针
bool ring_write(RingBuffer *rb, uint8_t data)
{
    uint16_t next = (rb->head + 1) % sizeof(rb->buffer);
    if (next == rb->tail) return false;  // 满了
    rb->buffer[rb->head] = data;
    rb->head = next;
    return true;
}

// 读取：只移动 tail 指针
bool ring_read(RingBuffer *rb, uint8_t *data)
{
    if (rb->head == rb->tail) return false;  // 空的
    *data = rb->buffer[rb->tail];
    rb->tail = (rb->tail + 1) % sizeof(rb->buffer);
    return true;
}

256 字节的缓冲区可以处理无限量的数据流——前提是消费速度跟得上生产速度。

用查找表替代运算（省 RAM 版）

查找表是经典的"空间换时间"策略。但在 RAM 紧张时，要把查找表放在 Flash 中：

// 放在 Flash 中的查找表（const 关键）
static const uint8_t gamma_table[256] = {
    0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 2, 2, 2, 3,
    // ... 256 个预计算值
};

// 使用：O(1) 查找，不占 RAM
uint8_t corrected = gamma_table[raw_value];

压缩存储格式

对于数据记录类应用，压缩存储格式可以大幅减少 RAM（和 Flash）占用：

// 优化前：每条记录 12 字节
typedef struct {
    uint32_t timestamp;    // 4 字节
    int16_t  temperature;  // 2 字节
    uint16_t humidity;     // 2 字节
    uint16_t pressure;     // 2 字节
    uint16_t reserved;     // 2 字节对齐
} SensorRecord;            // 12 字节 × 100 = 1200 字节

// 优化后：增量+压缩，每条 4 字节
typedef struct {
    uint8_t  dt;           // 距上一条的时间差（秒，0-255）
    int8_t   temp_delta;   // 温度差值（0.1°C 单位，±12.7°C）
    uint8_t  humi;         // 湿度（0-100%，1% 精度足够）
    uint8_t  press_delta;  // 气压差值
} SensorRecordCompact;     // 4 字节 × 100 = 400 字节

从 1200 字节压缩到 400 字节。代价是解码时需要额外计算——但在嵌入式中，CPU 时间通常比 RAM 空间便宜。

避免 sprintf 等重量级函数

// 危险：sprintf 可能使用大量栈空间（某些实现需要 > 1KB 栈）
char buf[64];
sprintf(buf, "T=%d.%dC H=%d%%", temp/10, temp%10, humi);

// 优化：手动格式化，栈消耗可控
char buf[20];
int pos = 0;
buf[pos++] = 'T';
buf[pos++] = '=';
pos += itoa_simple(temp/10, &buf[pos]);
buf[pos++] = '.';
pos += itoa_simple(temp%10, &buf[pos]);
buf[pos++] = 'C';
buf[pos] = '\0';

如果必须用 printf 系列，考虑用 nano 版 newlib（--specs=nano.specs），它的 printf 实现更小，栈消耗也更低。

RTOS 场景的特殊优化

使用 RTOS 时，RAM 管理有额外的挑战——每个任务都需要独立的栈空间。

任务栈大小估算

每个 FreeRTOS 任务创建时需要指定栈大小：

// 过大：浪费 RAM
xTaskCreate(sensor_task, "sensor", 1024, NULL, 2, NULL);  // 4KB 栈

// 过小：运行时栈溢出
xTaskCreate(sensor_task, "sensor", 64, NULL, 2, NULL);    // 256B 栈

估算栈大小的方法：

先给大值，跑满场景：给一个足够大的栈，让程序跑完所有功能路径
用 uxTaskGetStackHighWaterMark() 测量：获取历史最小剩余量
在实际使用量基础上加 20%-50% 余量：留给中断嵌套和极端情况

void monitor_task(void *param)
{
    while (1) {
        UBaseType_t sensor_wm = uxTaskGetStackHighWaterMark(sensor_handle);
        UBaseType_t ble_wm    = uxTaskGetStackHighWaterMark(ble_handle);
        printf("sensor stack free: %u words\n", sensor_wm);
        printf("ble stack free:    %u words\n", ble_wm);
        vTaskDelay(pdMS_TO_TICKS(5000));
    }
}

减少任务数量

每个任务 = 任务控制块（TCB，约 80-100 字节）+ 任务栈（至少 128-256 字节）。5 个任务至少消耗 1-2KB RAM。

// 优化前：每个传感器一个任务
xTaskCreate(temp_task,  "temp",  256, NULL, 2, NULL);   // 1KB
xTaskCreate(humi_task,  "humi",  256, NULL, 2, NULL);   // 1KB
xTaskCreate(press_task, "press", 256, NULL, 2, NULL);   // 1KB
// 3 个任务，约 3KB

// 优化后：合并为一个传感器任务
xTaskCreate(sensor_task, "sensor", 384, NULL, 2, NULL); // 1.5KB
void sensor_task(void *param)
{
    while (1) {
        read_temperature();
        read_humidity();
        read_pressure();
        vTaskDelay(pdMS_TO_TICKS(1000));
    }
}

如果多个任务的执行周期相同、优先级相同、且不需要并行执行，完全可以合并为一个任务。

静态创建 vs 动态创建

FreeRTOS 支持静态创建任务，避免使用堆：

// 动态创建：从堆分配 TCB 和栈
xTaskCreate(my_task, "task", 256, NULL, 1, NULL);

// 静态创建：TCB 和栈使用静态内存
static StaticTask_t task_tcb;
static StackType_t  task_stack[256];
xTaskCreateStatic(my_task, "task", 256, NULL, 1, task_stack, &task_tcb);

静态创建的优势：

不需要堆，避免碎片化
编译时就能确定 RAM 用量
FreeRTOS 配置中可以完全禁用堆（configSUPPORT_DYNAMIC_ALLOCATION = 0）

实战案例：从 RAM 溢出到优化达标

问题背景

某 BLE 可穿戴项目，MCU 是 nRF52832（64KB RAM），链接器报错：

region `RAM' overflowed by 2048 bytes

第一步：定位占用大户

查看 map 文件中 .bss 段的大户：

.bss 总占用: 58,432 bytes (57KB)

前 10 大变量：
  ble_stack_ram     32,768 bytes  (SoftDevice BLE 协议栈预留)
  ble_rx_buffer      4,096 bytes
  display_framebuf   4,096 bytes  (128x256 单色屏帧缓冲)
  log_buffer         2,048 bytes
  sensor_history     2,000 bytes  (200 条 × 10 字节)
  ota_page_buffer    1,024 bytes
  font_cache         1,024 bytes
  其他              11,376 bytes

BLE 协议栈占 32KB 是固定的（SoftDevice 要求），不能动。可优化的是应用层的 26KB。

第二步：逐项优化

1. ble_rx_buffer：4096 → 512（省 3584 字节）

BLE 单包最大 244 字节，双缓冲 512 足够。

2. log_buffer：2048 → 256（省 1792 字节）

日志改为逐条输出，不缓存多条。

3. sensor_history：2000 → 800（省 1200 字节）

记录从 200 条减到 100 条，每条用压缩格式从 10 字节减到 8 字节。

4. 结构体对齐优化（省约 400 字节）

排查主要结构体的填充浪费，调整成员顺序。

5. 位域替换 bool 数组（省约 200 字节）

多处使用的标志变量从独立 bool 改为位域。

第三步：验证

$ arm-none-eabi-size firmware.elf
   text    data     bss     dec     hex filename
  42100     280   51256   93636   16E04 firmware.elf

# RAM 占用: 280 + 51256 = 51,536 bytes (50.3KB)
# RAM 剩余: 65,536 - 51,536 = 14,000 bytes
# 其中约 8KB 给栈和堆，还有 6KB 余量

从溢出 2KB 到富余 6KB，总共优化了约 7KB。

总结

优化检查清单

优化项	方法	预期收益
定位大户	`size` 命令 + map 文件	找到优化方向
缩小 buffer	分析实际最大数据量	通常是最大收益项
const 移到 Flash	只读数据加 `const`	查找表、字符串常量
缩小数据类型	`uint8_t` 替代 `int`	全局变量多时效果明显
位域/位操作	压缩布尔标志	标志多时有效
消除冗余	计算替代存储	消除派生数据
局部变量下栈	大数组改 static 或全局	减小栈峰值
避免递归	改为迭代 + 显式栈	防止栈溢出
内存池替代 malloc	固定大小块池	消除碎片化
结构体对齐	成员按大小降序排列	消除填充浪费
gc-sections	编译+链接选项	自动剔除未用数据
RTOS 栈调优	水位监测 + 精确分配	消除过度预留
合并任务	减少 RTOS 任务数	省 TCB + 栈
静态创建	避免 RTOS 堆分配	消除堆碎片

核心原则

先量化，再优化。用 size、map、水位监测找到真正的占用大户，而不是盲目优化
静态优先于动态。能在编译时确定大小的，不在运行时分配
const 是免费的优化。只读数据加 const，编译器自动放到 Flash
RAM 预算从项目开始就要做。等溢出了再优化，改动范围和风险都更大

RAM 不够用？嵌入式内存优化实战指南