活动预告｜智源/TileRT/腾讯/华为/智元创新同台，共探 AI 编译的多层级协同优化

原创已于 2026-07-02 18:47:50 修改 · 47 阅读

本内容遵循CC 4.0 BY-SA版权协议

于 2026-07-02 14:36:16 首次发布

从北京的酷暑到上海的寒冬，由 HyperAI超神经主办的 Meet AI Compiler 技术沙龙，已经伴随 AI 编译生态走过了三年。这三年里，我们见证了无数工程师与科研学者分享前沿成果、碰撞技术观点，也共同推动着编译技术在大模型时代持续演进，不断突破性能优化、异构适配与工程落地的新边界。

技术在迭代，我们连接前沿创新的步履也从未停歇。8 月 1 日，Meet AI Compiler 技术沙龙第九期将在北京再度启航！本期我们邀请到了来自智源研究院、TileRT 团队、腾讯、华为昇腾、智元创新的多位专家，他们将围绕 FlagTree 语言扩展、TileRT 超低延迟推理、FalconGEMM 算子优化、AscendNPU IR 开源共建以及面向具身智能的应用实践展开深度拆解，力图呈现 AI 编译器在语言表达、算子计算、推理执行与场景应用等多个层面上的协同演进图景。

依旧老规矩，线下席位有限，手慢无！快来占座，我们现场见！

活动详情

⏰ 时间：8 月 1 日（周六）13:30-17:30

📍 地点：北京市海淀区中关村创业大街 12 号楼五层多功能厅

👬 人数：150（现场座位有限，请尽早报名）

🙌🏻 报名链接： https://hdxu.cn/1KkIr

嘉宾及议程

环节 1 分享嘉宾

分享主题：FlagTree：Triton-TLE 语言扩展、Tile IR 后端与编译优化实践

内容简介：本次分享将分为三个部分。第一部分介绍 Triton 面临的挑战，以及 TLE 如何通过三个层次的语言扩展，渐进式地暴露硬件细节，使算子在可移植性、可维护性与性能之间取得更好的平衡。第二部分聚焦 Tile IR 集成到 Triton 编译器 FlagTree 的工程实践，介绍其作为新型编译后端，如何进一步拓展 Triton 算子的性能优化空间。第三部分将系统解析 layout 优化、指令重排等关键编译器优化技术，展示面向跨芯片高性能算子的完整编译优化路径。

观看本场分享，你将了解：

1. TLE 如何控制片上内存、如何表达分布式和生产者消费者模型以及如何内联厂商原生语言

2. TLE 和 Tile IR 后端如何提升 Triton 关键算子的性能上限

3. 编译器优化技术如何降低数据布局转换开销、提升指令执行效率，并进一步释放 Triton 算子性能

分享主题：TileRT：速度即智能 —— 面向超低延迟大模型推理的计算探索与协同设计

内容简介：随着大模型跨入万亿参数规模并迈向 Agentic 时代，极致的推理速度已成为支撑复杂任务流、充分释放模型潜能的关键要素。然而，当系统试图进一步压榨延迟极限时，传统的系统架构与执行瓶颈往往成为难以逾越的障碍。

本报告介绍 TileRT 的最新探索，从 AI 编译器、Runtime 架构演进到模型-系统协同设计的角度，展示如何构建出面向超低延迟的大模型计算软件栈。

观看本场分享，你将了解：

1. 速度即智能：探讨在 Agentic 时代，为何「速度」正逐渐成为大模型推理侧的关键指标

2. 系统架构探索：介绍 TileRT 的架构演进，以 GLM-5 为例探讨如何通过重构底层计算调度，实现推理性能的显著提升

3. 模型 - 系统协同设计与生产实践：分享如何通过模型与系统的联合设计，让万亿参数模型在单 batch 推理突破 1000 TPS 的速度瓶颈

分享主题：FalconGEMM: Surpassing Hardware Peaks with Lower-Complexity Matrix Multiplication

内容简介：矩阵乘法（GEMM）是大模型训练与推理的算力核心，但随着模型规模指数级增长，标准算法 O(N³) 的复杂度正不断逼近硬件的物理峰值。如何在芯片算力见顶的当下继续榨取性能，成为大模型基础设施的关键命题。了解在算子优化见顶背景下，低复杂度矩阵乘法突破性能天花板的原理、价值与工程挑战一条被数学界探索了五十余年的路径是低复杂度矩阵乘法（LCMA，如 Strassen、AlphaTensor）—— 用更少的乘法换取更多的访存与加法，从而在等效意义上「撞穿」硬件峰值；然而访存膨胀、算法选择、跨平台移植三大工程难题，让它长期停留在理论层面。

本报告介绍 FalconGEMM 项目，从编译器自动代码生成、Group 并行融合的访存优化、到基于性能模型的算法决策三个层面，系统性地把 LCMA 从纸面带入生产级软件栈，并在多种 GPU/CPU 平台与真实大模型负载上实现了对顶级官方库的全面超越。

观看本场分享，你将了解：

1. 了解在算子优化见顶背景下，低复杂度矩阵乘法突破性能天花板的原理、价值与工程挑战

FalconGEMM 的技术方案与跨平台实践分享

分享主题：AscendNPU IR：编译底座开源开放，支持多语言接入昇腾

内容简介：昇腾毕昇编译器组件 AscendNPU IR 已全面开源，作为昇腾面向三方编程框架的 MLIR 接入层，提供灵活对接、完备表达与昇腾亲和编译优化能力，支持多个前端 DSL 实现昇腾算子性能提升。

观看本场分享，你将了解：

1.了解 AscendNPU IR 整体技术架构与设计理念

2.了解 AscendNPU IR 面向昇腾 950 扩展的新特性

3.了解 AscendNPU IR 社区共建活动与参与方式

分享主题：面向具身智能领域的通用 AI 编译器

内容简介：本报告介绍面向具身智能与多模态大模型的通用编译器，围绕完整算法 pipeline 的捕获、导出、分组编译、runtime 部署与性能优化展开，解决机器人模型在端侧交付、稳定运行、跨框架适配和工程规模化中的关键问题。

观看本场分享，你将了解：

1. 了解具身智能模型部署区别于传统模型部署的核心挑战，包括多模型、多框架、多阶段 pipeline 带来的工程复杂度与维护成本

2. 掌握通用编译器如何通过动态 trace 捕获完整算法流程，并将预处理、VLA 模型、LLM、后处理等模块组织为可编译、可发布可部署的 DAG 模版

3. 理解分组编译与统一 runtime 架构如何支持不同后端，在保持统一交付链路的同时发挥各种芯片优势

4. 了解具身领域编译器与发布平台的对接范式

主办方及合作伙伴

HyperAI超神经（hyper.ai）作为国际领先的人工智能及高性能计算社区，旨在通过提供行业资讯报道、数据集加速下载、在线教程演示、热门模型性能评测、前沿论文推荐、高价值成果解读、顶会日历集成等一系列服务，助力全球数据科学及⼈⼯智能⾏业的开发者及爱好者学习、理解、实践，与社区⼀起构建⼈⼯智能的未来。

访问官网：HyperAI