BERT实战指南：从预训练到微调的全流程代码解析

原创于 2026-02-04 06:28:50 发布 · 123 阅读

1 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#BERT #Transformer #预训练 #微调

1. BERT模型基础认知

BERT（Bidirectional Encoder Representations from Transformers）是2018年由Google推出的革命性自然语言处理模型。它通过Transformer架构和创新的预训练任务，在11项NLP任务上刷新了当时的性能记录。与传统的单向语言模型不同，BERT采用双向训练方式，能够同时捕捉上下文信息。

我第一次接触BERT是在一个文本分类项目上，当时用传统方法折腾了两周效果都不理想，换成BERT微调后准确率直接提升了15%。这种"开箱即用"的体验让我印象深刻。BERT的核心优势在于：

双向上下文理解：传统模型如GPT只能从左到右处理文本，而BERT能同时考虑前后文
统一架构：相同的模型结构适配多种任务，只需修改输出层
迁移学习：预训练好的权重包含丰富语言知识，小样本也能取得好效果

实际工作中最常用的两个版本是：

BERT-base：12层Transformer，768隐藏层维度，1.1亿参数
BERT-large：24层Transformer，1024隐藏层维度，3.4亿参数

from transformers import BertModel
# 加载预训练模型
model = BertModel.from_pretrained('bert-base-uncased')
print(model.config)

2. 预训练全流程实战

2.1 数据准备

BERT预训练需要大量文本数据，官方使用了BooksCorpus（8亿词）和英文Wikipedia（25亿词）。我处理中文数据时发现几个实用技巧：

文本清洗：去除特殊字符、HTML标签等非文本内容
分词处理：使用WordPiece分词（中文可用BERT自带的tokenizer）
格式转换：将文本转换为TFRecord格式提升读取效率

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
text = "自然语言处理真有趣！"
tokens = tokenizer.tokenize(text)  # ['自', '然', '语', '言', '处', '理', '真', '有', '趣', '！']

2.2 关键预训练任务

BERT通过两个独特任务学习语言表示：

掩码语言模型(MLM)：

随机遮盖15%的token
其中80%替换为[MASK]
10%随机替换为其他词
10%保持不变

from transformers import BertForMaskedLM
model = BertForMaskedLM.from_pretrained('bert-base-chinese')
inputs = tokenizer("自然语言[MASK]真有趣！", return_tensors="pt")
outputs = model(**inputs)
predicted_token = tokenizer.convert_ids_to_tokens(outputs.logits[0, 5].argmax().item())

下一句预测(NSP)：

50%概率选择连续句子
50%概率随机选择不相关句子
模型判断句子关系

2.3 训练技巧

我在实际训练中总结了几个关键点：

学习率设置：初始学习率5e-5，使用线性warmup
批次大小：尽量使用大batch（如256/512）
序列长度：前90%step用128长度，后10%用512长度
硬件配置：BERT-base在4个TPU上训练约需4天

# 示例训练配置
training_args = {
    "learning_rate": 5e-5,
    "warmup_steps": 10000,
    "batch_size": 256,
    "max_seq_length": 128,
    "num_train_epochs": 3
}

3. 微调实战指南

3.1 文本分类任务

以情感分析为例，微调流程如下：

数据准备：整理带标签的文本数据
模型加载：使用预训练BERT加分类头
参数设置：小学习率(2e-5)，3-4个epoch

from transformers import BertForSequenceClassification

model = BertForSequenceClassification.from_pretrained(
    'bert-base-chinese',
    num_labels=2  # 二分类
)

# 训练示例
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir='./results',
    per_device_train_batch_size=8,
    num_train_epochs=3,
    learning_rate=2e-5
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset
)
trainer.train()

3.2 问答任务

对于SQuAD风格的问答任务，需要预测答案的起止位置：

from transformers import BertForQuestionAnswering

model = BertForQuestionAnswering.from_pretrained('bert-base-chinese')

# 输入格式
inputs = tokenizer(
    question,
    text,
    return_tensors="pt",
    truncation=True,
    max_length=512
)

outputs = model(**inputs)
start_pos = outputs.start_logits.argmax()
end_pos = outputs.end_logits.argmax()
answer = tokenizer.decode(inputs.input_ids[0][start_pos:end_pos+1])

3.3 命名实体识别(NER)

序列标注任务的微调方法：

from transformers import BertForTokenClassification

model = BertForTokenClassification.from_pretrained(
    'bert-base-chinese',
    num_labels=num_entity_labels
)

# 输入输出对齐
labels = [0, 0, 1, 2, 0, 0]  # 0=非实体，1=实体类型A，2=实体类型B

4. 性能优化技巧

4.1 混合精度训练

使用FP16可以显著减少显存占用：

training_args = TrainingArguments(
    fp16=True,
    fp16_opt_level="O1"
)

4.2 梯度累积

当显存不足时，可以通过多步累积梯度模拟大batch：

training_args = TrainingArguments(
    per_device_train_batch_size=8,
    gradient_accumulation_steps=4  # 等效batch_size=32
)

4.3 学习率调度

from transformers import get_linear_schedule_with_warmup

optimizer = AdamW(model.parameters(), lr=5e-5)
scheduler = get_linear_schedule_with_warmup(
    optimizer,
    num_warmup_steps=100,
    num_training_steps=1000
)

5. 常见问题解决

问题1：显存不足

解决方案：减小batch_size，启用梯度检查点

model.gradient_checkpointing_enable()

问题2：过拟合

解决方案：增加dropout率，添加权重衰减

model = BertForSequenceClassification.from_pretrained(
    'bert-base-chinese',
    hidden_dropout_prob=0.2,
    attention_probs_dropout_prob=0.2
)

问题3：训练速度慢

解决方案：使用DeepSpeed或混合精度训练

在实际项目中，我发现BERT微调最关键的三个要素是：合适的学习率、充足的数据量和正确的任务适配。曾经在一个客服分类项目中，调整学习率从5e-5到3e-5就让准确率提升了2个百分点。