活动回顾｜AMD/沐曦/字节/北京大学深度解析跨硬件的统一编译生态

原创已于 2025-07-25 11:45:31 修改 · 974 阅读

13 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#AMD #沐曦集成电路 #字节跳动 #北京大学 #国产 GPU 编译栈

于 2025-07-25 11:42:44 首次发布

人工智能专栏收录该内容

137 篇文章

订阅专栏

大模型时代，编译器再一次站在了聚光灯下。 7 月 5 日，HyperAI 超神经在北京中关村举办了第 7 期 Meet AI Compiler 技术沙龙，聚焦分布式通信、国产 GPU 编译栈、新编程语言设计与开源生态建设，邀请了来自 AMD 、沐曦集成电路、字节跳动和北京大学的资深 AI 编译器专家，围绕各自「真实在做、也真的做出成绩」的技术路径，系统呈现了各自项目中的关键机制与实现细节。

关注微信公众号「HyperAI 超神经」，后台回复关键字「0705 AI 编译器」，即可获取确认授权的讲师演讲 PPT 。

在圆桌环节中，由上海创智学院助理教授、 Apache TVM PMC 冯思远担任主持人，聚焦「跨硬件的统一编译生态」这一主题，与 4 位讲师深入探讨了不同硬件平台的协同与挑战。

本次活动不仅仅是台上讲师的「知识输出」，来自社区小伙伴的互动同样精彩纷呈。无论是对技术细节的深入追问，方案选型的延展讨论，还是茶歇时的自由交流，大家都毫无保留地分享自己的经验与见解，围绕自己遇到的实际问题展开了热烈而真诚的对话。这种「双向奔赴」的氛围，才能让我们的技术社区更有温度！为本次技术沙龙画上了完美句号。

活动内容回顾

以下为分享内容简介以及分享实录文章。

分享主题：助力开源社区，剖析 AMD Triton 编译器

内容简介：Triton 是 OpenAI 提出的一种专为简化高性能 GPU Kernel 开发而设计的编程语言，在主流的 LLM 推理训练框架中得到了广泛应用。用户可以通过开发 Python Triton 代码来实现 GPU Kernel，无需关心底层的 GPU 架构细节，大大降低了 GPU 代码的开发难度。

AMD 在相关的 GPU 平台上实现了 Triton 编译器，并且贡献给了 Triton 开源社区。为了优化 GPU 代码性能，需要了解 Triton 编译器及其在 Kernel 性能优化中的作用。本次分享将详细探讨 AMD Triton 编译器，介绍编译器如何提升 Triton 在 AMD GPU 平台上的性能。

观看本场分享，你将了解：

1. AMD GPU 架构的介绍

2. AMD GPU 在 Triton 开源社区上的最新工作

点击查看完整分享实录：

AMD AI 架构师张宁：多视角解析 AMD Triton 编译器，助力开源生态建设

分享主题：沐曦 GPU 上的 TVM 应用实践

内容简介：这次讨论主要围绕如何在沐曦 GPU 上应用 TVM 。针对沐曦 GPU，围绕 TVM 进行高性能算子生成，使能基于 TVM 的主流 AI 框架。

观看本场分享，你将了解：

1. 国产 GPGPU 上适配 TVM 可能会碰到的问题

2. TVM 在国产 GPGPU 上的收益如何，以及哪些方面需要继续突破

3. 关于 TVM 等 AI 编译器在国产 GPGPU 上的支持现状，并讨论如何拓展相关生态圈

点击查看完整分享实录：

从架构特性到生态建设，沐曦董兆华深度剖析国产 GPU 上的 TVM 应用实践

分享主题：Triton-distributed: 原生 Python 编程实现高性能通信

内容简介：单芯片规模化渐至瓶颈，单加速器难支撑大语言模型训练推理，分布式系统成刚需。分布式系统中计算、内存访问、通信并发，但现有框架多独立优化，难以协同释放集群性能。

本报告提出 Triton-distributed（Triton 编译器扩展），首倡分布式 AI 工作负载原生重叠优化，覆盖多框架优化。通过集成 OpenSHMEM 通信原语、借助编译器实现三项活动联合优化、展示重叠技术应用及单 / 多节点编程方法，其生成代码在集群环境中充分利用异构资源，性能超越手工优化代码，且开发成本显著低于 CUDA/C++。

观看本场分享，你将了解：

1. Triton-distributed 最新技术

2. 从 Python 编程通信的挑战

3. 分布式编译未来方向

点击查看完整分享实录：

训练性能显著提升，字节跳动郑思泽详解 Triton-distributed 框架，实现大模型高效分布式通信与计算融合

分享主题：TileLang：算子开发不再「烧脑」，性能依然在线

内容简介：本次分享我们带来新的算子编程语言——TileLang 。它通过显式的 tile 级原语与自动推理机制，赋能开发者高效实现硬件感知的神经算子，兼顾控制力与开发效率。

观看本场分享，你将了解：

1. 掌握一种更简单、更高效的高性能算子开发语言

2. 了解 TileLang 的核心设计理念与技术优势

点击查看完整分享实录：

Tile 级原语与自动推理机制融合，TileAI 社区发起人深度剖析 TileLang 核心技术与优势

2025 Meet AI Compiler · 敬请期待

2023-2025 年，我们在北京、上海、深圳成功举办了 7 场线下 Meetup，聚集了上千位资深从业者及爱好者，逐步建立了丰富的社区生态。 2025 年，我们将继续开拓 AI Compiler 城市地图，诚挚邀请各位企业及社区伙伴们以各种形式参与共创，无论是推荐讲师还是提供场地、茶歇，我们都非常欢迎~

让我们携手创造国内最活跃的 AI 编译器社区！最后分享一张现场的大合影 ❤️