活动回顾|AMD/沐曦/字节/北京大学深度解析跨硬件的统一编译生态

大模型时代,编译器再一次站在了聚光灯下。 7 月 5 日,HyperAI 超神经在北京中关村举办了第 7 期 Meet AI Compiler 技术沙龙,聚焦分布式通信、国产 GPU 编译栈、新编程语言设计与开源生态建设,邀请了来自 AMD 、沐曦集成电路、字节跳动和北京大学的资深 AI 编译器专家,围绕各自「真实在做、也真的做出成绩」的技术路径,系统呈现了各自项目中的关键机制与实现细节。

关注微信公众号「HyperAI 超神经」,后台回复关键字「0705 AI 编译器」,即可获取确认授权的讲师演讲 PPT 。

在圆桌环节中,由上海创智学院助理教授、 Apache TVM PMC 冯思远担任主持人,聚焦「跨硬件的统一编译生态」这一主题,与 4 位讲师深入探讨了不同硬件平台的协同与挑战。

本次活动不仅仅是台上讲师的「知识输出」,来自社区小伙伴的互动同样精彩纷呈。无论是对技术细节的深入追问,方案选型的延展讨论,还是茶歇时的自由交流,大家都毫无保留地分享自己的经验与见解,围绕自己遇到的实际问题展开了热烈而真诚的对话。这种「双向奔赴」的氛围,才能让我们的技术社区更有温度!为本次技术沙龙画上了完美句号。

活动内容回顾

以下为分享内容简介以及分享实录文章。

分享主题:助力开源社区,剖析 AMD Triton 编译器

内容简介:Triton 是 OpenAI 提出的一种专为简化高性能 GPU Kernel 开发而设计的编程语言,在主流的 LLM 推理训练框架中得到了广泛应用。用户可以通过开发 Python Triton 代码来实现 GPU Kernel,无需关心底层的 GPU 架构细节,大大降低了 GPU 代码的开发难度。

AMD 在相关的 GPU 平台上实现了 Triton 编译器,并且贡献给了 Triton 开源社区。为了优化 GPU 代码性能,需要了解 Triton 编译器及其在 Kernel 性能优化中的作用。本次分享将详细探讨 AMD Triton 编译器,介绍 编译器如何提升 Triton 在 AMD GPU 平台上的性能。

观看本场分享,你将了解:

1. AMD GPU 架构的介绍

2. AMD GPU 在 Triton 开源社区上的最新工作

点击查看完整分享实录:

AMD AI 架构师张宁:多视角解析 AMD Triton 编译器,助力开源生态建设

分享主题:沐曦 GPU 上的 TVM 应用实践

内容简介:这次讨论主要围绕如何在沐曦 GPU 上应用 TVM 。针对沐曦 GPU,围绕 TVM 进行高性能算子生成,使能基于 TVM 的主流 AI 框架。

观看本场分享,你将了解:

1. 国产 GPGPU 上适配 TVM 可能会碰到的问题

2. TVM 在国产 GPGPU 上的收益如何,以及哪些方面需要继续突破

3. 关于 TVM 等 AI 编译器在国产 GPGPU 上的支持现状,并讨论如何拓展相关生态圈

点击查看完整分享实录:

从架构特性到生态建设,沐曦董兆华深度剖析国产 GPU 上的 TVM 应用实践

分享主题:Triton-distributed: 原生 Python 编程实现高性能通信

内容简介:单芯片规模化渐至瓶颈,单加速器难支撑大语言模型训练推理,分布式系统成刚需。分布式系统中计算、内存访问、通信并发,但现有框架多独立优化,难以协同释放集群性能。

本报告提出 Triton-distributed(Triton 编译器扩展),首倡分布式 AI 工作负载原生重叠优化,覆盖多框架优化。通过集成 OpenSHMEM 通信原语、借助编译器实现三项活动联合优化、展示重叠技术应用及单 / 多节点编程方法,其生成代码在集群环境中充分利用异构资源,性能超越手工优化代码,且开发成本显著低于 CUDA/C++。

观看本场分享,你将了解:

1. Triton-distributed 最新技术

2. 从 Python 编程通信的挑战

3. 分布式编译未来方向

点击查看完整分享实录:

训练性能显著提升,字节跳动郑思泽详解 Triton-distributed 框架,实现大模型高效分布式通信与计算融合

分享主题:TileLang:算子开发不再「烧脑」,性能依然在线

内容简介:本次分享我们带来新的算子编程语言——TileLang 。它通过显式的 tile 级原语与自动推理机制,赋能开发者高效实现硬件感知的神经算子,兼顾控制力与开发效率。

观看本场分享,你将了解:

1. 掌握一种更简单、更高效的高性能算子开发语言

2. 了解 TileLang 的核心设计理念与技术优势

点击查看完整分享实录:

Tile 级原语与自动推理机制融合,TileAI 社区发起人深度剖析 TileLang 核心技术与优势

2025 Meet AI Compiler · 敬请期待

2023-2025 年,我们在北京、上海、深圳成功举办了 7 场线下 Meetup,聚集了上千位资深从业者及爱好者,逐步建立了丰富的社区生态。 2025 年,我们将继续开拓 AI Compiler 城市地图,诚挚邀请各位企业及社区伙伴们以各种形式参与共创,无论是推荐讲师还是提供场地、茶歇,我们都非常欢迎~

让我们携手创造国内最活跃的 AI 编译器社区!最后分享一张现场的大合影 ❤️

下载代码方式:https://pan.quark.cn/s/604a73f2a5f9 流量分类机制(IEEE 802.1Qbv)将以太网数据传输划分为多个不同类别,每个类别均被分配特定时段以获取网络访问权,借此构建了类别专属的保护“路径”。依托IEEE 802.1Qcc的优化SRP与性能提升,用户网络接口(UNI)得到扩充,从而支持了远程集中化的网络设置。 ### IEEE 802.1Qbv TSN:流量调度技术详解 #### 一、IEEE 802.1Qbv TSN概述 在当前迅速演进的科技领域中,特别是工业自动化、汽车电子以及高性能计算等领域对实时通信的需求持续上升,时间敏感型网络(Time-Sensitive Networking, TSN)技术随之出现。其中,IEEE 802.1Qbv规范是TSN体系中的一个关键构成,主要聚焦于以太网中时间敏感数据流量的管理与调度。 #### 二、IEEE 802.1Qbv标准背景 IEEE 802.1Qbv由IEEE LAN/MAN标准委员会制定,作为IEEE 802.1Q-2014规范的一个延伸,目的是为支持定时传输的数据单元提供更高效、更精准的服务。该规范通过引入时间敏感的流量调度机制,使网络能更好地适应工业控制等环境下的实时性要求。 #### 三、核心概念阐释 **1. 流量调度(Scheduled Traffic)** - **定义**:IEEE 802.1Qbv的核心功能之一是流量调度,它允许依据预定的时间计划来传输不同类型的网络数据。 - **作用**:通过设定优先级和分配时间间隙,保障关键任务数据单元能在规定时限内完成传输,从而增强整个网络的可靠性与确定性。 **2. 类别特定的保护“路径”** - **...
打开链接下载源码: https://pan.quark.cn/s/3e18267cc8f4 ### 倍福PLC从入门到精通 #### 一、系统概述 倍福PLC(Programmable Logic Controller)是一种具有高性能的工业自动化控制设备,其采用了PC架构并融合了实时操作系统TwinCAT,非常适用于复杂多变的工业控制环境。本书着重阐述了倍福PLC的基础理论、安装设置流程以及具体的应用技巧。 **核心知识点:** 1. **原理说明**:倍福PLC基于PC的架构设计,意味着它能够借助PC的强大计算能力和丰富的接口资源来执行复杂的控制任务。同时,通过整合TwinCAT实时操作系统,能够实现高精度的时间同步和低延迟的数据处理性能。 2. **选型建议**:选择合适的倍福控制器至关重要,例如CX系列、CPxxxx系列或Cxxxx系列等,它们各自具有独特的优势,适用于不同的应用场景。选型时需要考虑的因素包括处理速度、I/O接口数量、内存容量等。 3. **安装设置**:详细说明了在Windows操作系统环境下如何安装和配置TwinCAT 2.0软件,涵盖了系统环境的准备、软件安装步骤以及必要的系统设定等。 4. **接线方法**:提供了清晰的接线图示和步骤说明,指导用户正确地将控制器与外部设备连接。 #### 二、编程入门 这一章节主要面向初次接触倍福PLC的用户,通过简单的实例程序来讲解编程的基本流程和技术要点。 **核心知识点:** 1. **编程环境熟悉**:了解TwinCAT 2.0的编程环境,包括开发工具的使用方法和程序结构等。 2. **基础编程技能**:学习如何编写控制逻辑,掌握基本的编程指令如条件语句、循环结构等。 3. **程序调试方法*...
内容概要:本文系统性地介绍了物理信息神经网络(PINNs)在结构力学领域中的应用,重点围绕铁木辛柯梁(Timoshenko Beam)方程的求解展开研究。通过结合PyTorch深度学习框架,构建PINNs模型,将偏微分方程所描述的物理规律作为先验知识嵌入神经网络训练过程,实现对复杂力学系统的高效数值模拟。文章详细阐述了Timoshenko梁理论的控制方程与边界条件,深入解析了如何设计复合损失函数以同时满足微分方程残差、初始条件与边界约束,并完整呈现了从网络架构搭建、数据采样、训练优化到结果可视化的全流程Python代码实现,充分验证了PINNs在固体力学正问题求解中的高精度与无需传统网格划分的独特优势。; 适合人群:具备一定深度学习与连续介质力学基础知识,熟悉PyTorch框架,从事科学计算、工程仿真或交叉学科研究的研发人员与研究生。; 使用场景及目标:① 探索基于深度学习的无网格方法求解复杂偏微分方程的新范式;② 学习如何将物理守恒定律与机器学习模型深度融合;③ 掌握PINNs在梁、板、壳等结构动力学问题中的建模思路与编程实现技巧; 阅读建议:建议读者结合所提供的Python代码逐模块精读,重点关注物理约束的数学形式化表达与损失函数的权重平衡策略,理解梯度计算与自动微分在物理一致性保障中的作用,并尝试迁移该方法至其他类型的微分方程求解任务中进行拓展研究。
代码下载链接: https://pan.quark.cn/s/41fd9961b764 HTML与CSS构成了网页设计的核心基础,资源"html+css网站模板网页设计源码-html个人网页设计模板.zip"提供了一套完备的个人网页设计模板,其中包含了大量运用HTML和CSS编写的源代码。该模板既适合初学者也适合经验丰富的开发者使用,能够辅助他们迅速启动一个新的网页开发项目,或者作为掌握HTML和CSS布局技巧的实例参考。 HTML(HyperText Markup Language)作为网页内容的结构化语言,用于设定页面的元素及其组织方式。在提供的模板中,HTML文档可能包含了诸如头部信息、导航栏、主体内容区块、页脚等常规网页组件。开发者可通过审视和编辑这些标记,来理解不同组件的组织与展示方式。 CSS(Cascading Style Sheets)则专注于网页的视觉表现与布局安排,它支持将设计要素如色彩、字体、尺寸及布局安排进行分离处理,从而确保页面呈现统一风格并便于后续维护。在模板内,CSS文档可能包含了针对HTML组件的样式设定,例如背景色彩、间距、边框、字体形态等。通过研究模板中的CSS内容,可以学习到如何运用选择器来精确指定HTML元素,并进行定制化设计。 此压缩文件内的源代码文件可能遵循以下结构:以HTML文件作为主导的结构性文档,并链接一个或多个CSS文件以达成视觉呈现效果。开发者可打开HTML文件,检视其<head>部分,定位<link>标签,该标签通常用于引入外部CSS文档。同时,HTML文档内部或许还嵌入了内联样式,这些样式被<style>标签所包裹,直接应用于元素之上。 对于有意向学习网页设计的人员而言,此模板提供了实践平台。用户可通过调...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值