PyTorch → Quantize → ONNX → TensorRT Engine 流程总结与现代llm的差别

原创已于 2026-06-17 14:47:49 修改 · 88 阅读

1 GEO检测

标签

#pytorch #人工智能 #onnx #tensorRT #llm

收录于

于 2026-06-14 22:34:02 首次发布

高性能计算同时被 3 个专栏收录

该专栏为热销专栏榜第25名

24 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

编程之美

12 篇文章

订阅专栏

架构设计

8 篇文章

订阅专栏

PyTorch → Quantize → ONNX → TensorRT Engine 流程总结

本文档梳理 PyTorch → 量化 → ONNX → TensorRT Engine 的完整流程，说明各阶段输入输出及如何衔接。以及端侧llm与数据中心的差异和特殊优化

一、目录里各仓库的角色

目录	作用
`pytorch/`	PyTorch 框架源码；提供 `torch.onnx.export` 等导出能力
`onnx/`	ONNX 格式规范与工具
`onnx-tensorrt/`	ONNX Parser（`libnvonnxparser.so`）：把 ONNX 图解析成 `INetworkDefinition`；详见 Stage 4.1

了解本专栏

订阅专栏解锁全文

超级会员免费看

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

self-motivation

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

订阅专栏

PyTorch— 练习手写核心模块(1)

随缘不强求，反正也求不来

06-17

284

TorchCode"Crack the PyTorch interview" —— 帮你通过ML/AI岗位的代码面试基于Jupyter Notebook，每道题有题目描述 + 自动判分40道（覆盖面试最高频的PyTorch手写题）原仓库顺序有点混乱，按照功能模块进行了划分：基础层组件注意力机制网络构建块训练相关损失函数推理/生成策略高效训练/推理：26, 36数据预处理/分词：35基础机器学习：40基础层组件。

动态图机制：为什么 PyTorch 调试起来更舒服

2501_92593481的博客

06-15

530

动态图的本质：Python 负责真实执行，Autograd 负责记录历史，Engine 负责反向回放。PyTorch 调试舒服，不是偶然。它的默认执行方式就是按普通 Python 程序来跑。动态图让模型更自由，也让错误更接近代码现场。但自由有代价。性能优化、部署和跨平台推理，需要把动态图中的稳定部分重新抽成图。这正是后续 torch.compile、torch.export、ONNX 要解决的问题。动态图机制：为什么 PyTorch 调试起来更舒服：功能变化与行业影响解析_热闻岛。

参与评论您还未登录，请先登录后发表或查看评论

零基础精通PyTorch深度学习框架：深度解析PyTorch-Tutorial-2nd开源项目的核心架构、代码实战与高效学习方法指南

最新发布

wulechun的博客

06-17

368

不仅仅是一个代码仓库，它更是一位耐心的“AI导师”。它用规范的代码和详尽的注释，填补了理论与实战之间的鸿沟。对于任何希望系统掌握PyTorch、深入理解深度学习原理的学习者来说，这都是一份不可多得的优质资源。通过跟随该项目的指引，你将不再畏惧复杂的模型代码，而是能够自信地构建、训练并优化属于自己的神经网络。

AI Infra 硬件体系与编程模型：18. CUDA编程基础：使用 PyTorch CUDA Extension 实现自定义算子

basketball616的博客

06-17

416

本文详细介绍了PyTorch CUDA扩展的开发方法与架构。主要内容包括：开发动机：解决原生算子不足、Python实现性能差、需要算子融合和硬件特性定制等问题三层架构： CUDA核函数层：纯GPU计算逻辑 C++封装层：连接PyTorch与CUDA，处理张量转换 Python层：提供用户接口核心依赖：ATen张量库作为基础，通过torch/extension.h头文件提供统一接口关键技术：使用pybind11实现Python-C++绑定支持即时编译(JI

PyTorch强化学习实战（13）——噪声网络（NoisyNet-DQN）

盼小辉丶的博客

06-13

454

噪声网络 (NoisyNet) 通过在神经网络权重中注入可学习的参数化噪声，实现状态依赖且时间上一致的探索，克服了传统 ε-greedy 等策略在稀疏奖励环境中效率低下的问题。该方法的权重由可训练均值 μ 和标准差 σ 加上随机噪声 ε 构成，噪声可采用独立高斯或分解高斯方式，后者通过外积计算降低计算复杂度。在 PyTorch 中可通过自定义 NoisyLinear 层实现，替换 DQN 最后两层线性层并移除 ε-greedy 即可。

pytorch_cuda安装

weixin_44815745的博客

06-14

236

摘要：PyTorch CUDA环境安装指南本文介绍了PyTorch CUDA环境的完整安装流程：1)首先检查显卡驱动版本（使用nvidia-smi命令）；2)根据驱动支持的CUDA版本选择对应PyTorch版本；3)安装匹配的CUDA Toolkit（建议与PyTorch版本一致）；4)通过nvcc -V验证安装；5)最后使用Python代码测试CUDA是否可用。整个过程强调版本匹配的重要性，特别是驱动、PyTorch和CUDA Toolkit之间的版本兼容性。文末提供了完整的验证代码示例，可检查CUDA

《PyTorch》Transforms：数据增强不是锦上添花，是训练基本功

2501_92593481的博客

06-16

390

• Transforms 是数据进入模型前的加工车间。• 预处理让输入规范，数据增强让模型泛化。• 训练集可以随机，验证/测试集必须稳定。• v2 transforms 适合复杂任务，可以同步处理 image、box、mask、video。• 源码主线是 Dataset → Compose → Transform.forward → make_params → transform → functional → kernel。

《PyTorch 深度修炼》优化器：参数到底是怎么被更新的

2501_92593481的博客

06-15

316

优化器是训练闭环里真正修改参数的组件。SGD 简单直接，适合追求可控和泛化。Momentum 用历史方向减少震荡。Adam 用一阶矩和二阶矩给每个参数自适应步长。AdamW 把 weight_decay 从梯度更新里解耦出来，是 Transformer 和大模型训练里的常见默认选择。源码上，Optimizer 管理 param_groups 和 state；具体 step 收集 grad 和状态，再下沉到 functional 与底层算子。

大模型训练必修课：梯度裁剪(Gradient Clipping)从数学原理，到PyTorch工程实战全解析

qq_62634342的博客

06-12

464

梯度裁剪是大模型训练中防止梯度爆炸、保障数值稳定性的核心技术。本文从零基础到工程实战，系统解析了梯度裁剪的数学原理与PyTorch落地细节。内容涵盖Clip by Norm的全局缩放机制与方向守恒证明、clip_grad_norm_ API参数深度拆解（含norm_type选型与foreach性能优化）、AMP混合精度下的正确调用时序，以及max_norm的动态监控与调优策略。文章还特别辨析了梯度裁剪的局限性，明确其仅作用于反向传播阶段，对前向溢出无效，并给出了完整的排查路径。全文融合公式推导、代码实战与避

Autograd 自动求导：PyTorch 训练模型的发动机

2501_92593481的博客

06-14

315

Autograd 是 PyTorch 训练的发动机。requires_grad 决定是否记录计算。grad_fn 指向反向图入口。backward 从 loss 出发反向遍历。叶子 Tensor 的 .grad 会被填充。中间节点的梯度默认不保留。某些算子会保存前向中间值，用于反向计算。Python API 负责入口，C++ Autograd Engine 负责真正执行。一句话：前向建图，反向执行，梯度累加，优化器更新。

AI损失函数：数学公式 + PyTorch API + 使用场景

java_man1的博客

06-16

248

神经网络常见损失函数 BCE Loss、BCEWithLogits、CrossEntropy Loss、NLL Loss、Focal Loss、MAE (L1)、MSE (L2)、Smooth L1 (Huber) 神经网络常用损失函数大全（公式 + PyTorch API + 使用场景）

AMD | task02

m0_52024881的博客

06-15

254

跑完整个 Notebook，相当于你已经独立完成了一次完整的模型微调。具体来说，你手上会多出这样几样成果：关机前的“安全撤退”两步走正式关闭环境确认代码文件下载到你本地电脑后，回到网页的 Profile（个人主页），找到 Active Instance 区域，点击红色的 Destroy Instance 按钮。微调（Fine-tuning）微调的真实威力，看下例子就懂：耶鲁大学用微调后的 Gemma 4 探索癌症治疗的新方向；保加利亚的团队把它微调成了"保加利亚语优先"的大模型 BgGPT。同一个

PyTorch零基础】模型修改、添加网络层、两种模型保存与加载方式

努力写A题的小菜鸡

06-12

402

在深度学习训练中，我们经常需要：修改官方预训练模型（VGG、ResNet）给网络新增网络层保存训练好的模型、断点续训加载模型继续训练/推理PyTorch 提供了两种保存模型、两种加载模型的方式，新手极易混淆、极易报错。本文结合 VGG16 实战代码，一次性彻底讲透，以后永远不用死记硬背。

基于 PyTorch 的食物图像分类CNN 训练全流程

2301_78775214的博客

06-12

857

本文详细介绍了基于PyTorch实现20类食物图像分类的完整流程。首先通过自动生成标签文件建立图片路径与分类标签的映射关系；接着自定义Dataset类实现数据读取与预处理；然后搭建包含三组卷积块的CNN网络结构；最后完成模型训练与评估。项目采用标准工业流程，涵盖数据准备、模型构建、训练优化等关键环节，并提供了Windows环境下的中文路径乱码解决方案。代码实现注重可复用性，支持自动选择GPU加速，可作为图像分类任务的通用模板。通过10轮训练后，模型能够在测试集上实现有效分类。

PyTorch 2.12 完全指南：从动态图到编译优化的深度学习框架演进

心有猛虎细嗅蔷薇

06-16

319

PyTorch 2026核心指南：动态图深度学习框架的最新演进 PyTorch作为Meta开源的动态图深度学习框架，凭借"定义即运行"的核心理念成为学术界和工业界首选工具。2026年版本演进至2.12，主要特性包括：核心优势： Python原生API设计动态计算图支持条件分支跨硬件加速（CUDA/ROCm/XPU/MPS）活跃生态（85%研究论文采用）关键更新：发布周期缩短至每2个月引入100倍特征分解加速统一Graph API和MX量化支持基础架构：基于张量的自动微分系统灵活的前向传

PyTorch 系列之 nn.Module：所有模型的骨架

2501_92593481的博客

06-15

277

nn.Module 是 PyTorch 模型的骨架。它把散落的层、参数、状态组织成一棵可训练、可迁移、可保存、可调试的树。掌握 Module，后面讲 Linear、Conv、Transformer、训练循环、模型保存、分布式训练，都会有同一套底层语言。PyTorch 系列之 nn.Module：所有模型的骨架：功能变化与行业影响解析_热闻岛。

PyTorch强化学习实战（14）——优先经验回放机制

盼小辉丶的博客

06-16

711

本节深入介绍了优先经验回放机制，它通过根据样本损失值分配优先级，打破了经典 DQN 的均匀采样策略，从而提升训练效率与策略质量。详细阐述了优先级的计算公式、采样与权重补偿机制，并给出了具体代码实现，包括缓冲区设计、损失函数修改及超参数 β 的调度策略。实验结果显示，该方法在减少训练迭代次数的同时，能够获得更低的损失值。

《PyTorch 深度修炼》Dataset 和 DataLoader：数据如何喂给模型

2501_92593481的博客

06-16

382

• Dataset 解决“一个样本怎么取”。• DataLoader 解决“样本如何成批、高效、稳定地送进模型”。• Sampler 管顺序，BatchSampler 管批次，collate_fn 管拼接。• num_workers 能提升吞吐，但也会带来进程、内存和 IO 成本。• IterableDataset 多进程要特别注意分片，否则容易重复读数据。• pin_memory 是 GPU 训练的数据搬运优化点，但自定义 batch 需要自己适配。

Tensor：PyTorch 世界里的一切都是张量

2501_92593481的博客

06-14

312

Tensor 是 PyTorch 的第一块地基。学 PyTorch，不要先背 API。先理解 Tensor 的本质。它不是数组。它是“数据 + 元信息 + 设备 + 内存视图 + 梯度能力”的组合体。shape 决定外形。dtype 决定数值格式。device 决定计算位置。stride 决定如何读内存。storage 保存真实数据。requires_grad 决定是否进入自动求导。