LLM 微调避坑指南：从训练动态到显存账本的深度解剖

在单卡（如 Tesla P100 16GB）上对大语言模型进行微调时，往往会遇到 Loss 不降、无限复读或显存溢出（OOM）等诡异问题。这篇博客将从底层逻辑出发，拆解 LLM 微调中的核心概念与显存消耗真相。

1. 训练时间线：Epoch、Step 与有效 Batch Size

在微调极小规模数据集时，最容易踩的坑就是“步数错位”。

核心陷阱：梯度累积（Gradient Accumulation） gradient_accumulation_steps 是一种用“时间换空间”的机制，通过多次前向/反向传播累积梯度，最后集中更新一次权重，以此模拟大 Batch Size。

公式：$\text{有效 Batch Size} = \text{单卡 Batch} \times \text{显卡数} \times \text{累积步数}$
副作用：如果有效 Batch Size 大于或等于总数据量，会导致 1 个 Step 需要跨越多个 Epoch 才能完成。这会引发训练日志缺失（No log）和严重的过拟合。面对极小数据集，应果断将累积步数设为 1，确保 $1 \text{ Epoch} \ge 1 \text{ Step}$。

模型的参数量 $P$ 并非玄学，它与模型的层数（$L$）和隐藏层维度（$H$）高度绑定。

对于标准 Transformer 架构：

\[P \approx L \times 12 \times H^2\]

其中，Attention 层贡献约 $4H^2$，MLP 层贡献约 $8H^2$。以 Qwen-3 为例，由于采用了 SwiGLU 激活函数（三路线性层），其 MLP 更加庞大，整体系数更接近 15。

MLP（多层感知机）：模型的“静态知识库”。它通常先将维度升至 $3H$ 或 $4H$（高维空间更容易拟合复杂非线性规律），再降维回 $H$。
RMSNorm（均方根层标准化）：相比传统 LayerNorm，RMSNorm 砍掉了“减均值”的操作，直接除以均方根。它在保持训练稳定性的同时，降低了计算开销，是现代大模型的标配。

加载一个 0.6B（6 亿参数）的模型，在 BF16（16-bit）精度下只需约 1.2GB 显存（$P \times 2 \text{ Bytes}$）。但在训练时，显存占用会飙升到 10GB 以上，原因在于训练不仅需要存放权重：

显存消耗项	计算公式（经验值）	描述说明
模型权重	$P \times 2$ (BF16)	模型的静态参数。
梯度 (Gradients)	$P \times 2$ (BF16)	反向传播时的导数。
优化器状态 (AdamW)	$P \times 8$ (FP32)	最大头。用于存储一阶（动量）和二阶（方差）状态。必须使用 32 位以防精度丢失。
激活值 (Activations)	动态变化	前向传播的中间结果，占用与 Batch Size 和序列长度成正比。

为了在消费级显卡上训练大模型，BitsAndBytes 提供了 4-bit 量化（如 NF4）方案。

优势：显存占用砍掉约 75%。
代价：量化会带来舍入误差，损失模型在复杂逻辑推导和精细物理运算上的准确度；同时，推理时频繁的“反量化”操作会导致计算速度略降。
工程决策：如果显卡容量充足（如 16GB 显卡跑 0.6B 模型），应坚决弃用 4-bit 量化，直接采用全精度（BF16）加载，以换取最高的逻辑上限。

当模型在生成时陷入无限循环或死记硬背时，通常是以下原因：

ChatML 格式缺失：缺少 <|im_start|> 和 <|im_end|> 这类角色定位 Token，导致模型失去对话的边界感，分不清何时该停止生成。
严重过拟合：数据量极小却跑了过多的 Epoch，或 LoRA 设定的 lora_alpha 学习率过大。
推理参数固化：在生成时，可以通过调高 repetition_penalty（重复惩罚系数，如 1.1 - 1.2）和增加 temperature 来强行打破复读循环。