LLM大模型涉及的核心技术全景
LLM(Large Language Model)的研发与应用涉及从底层硬件到上层应用的完整技术栈,以下是分层次的详细技术分类:
一、模型架构与训练技术
-
基础架构
- Transformer:自注意力机制(Self-Attention)、多头注意力(Multi-Head Attention)
- 变体模型:
- 解码器架构(GPT系列)
- 编码器-解码器架构(T5、BART)
- 位置编码:绝对位置编码(Positional Encoding)、相对位置编码(RoPE)
-
训练优化技术
- 分布式训练:
- 数据并行(Data Parallelism)
- 模型并行(Tensor/Pipeline Parallelism)
- 混合并行(如Megatron-LM的3D并行)
- 优化算法: <
- 分布式训练:

订阅专栏 解锁全文

1662

被折叠的 条评论
为什么被折叠?



