100 00 黄大年茶思屋“难题揭榜”第100期-华为云难题第五期（全文整理）

原创于 2026-06-25 18:16:03 发布 · 90 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#华为云 #人工智能 #机器学习 #黄大年茶思屋

黄大年榜文揭榜和答疑专栏收录该内容

141 篇文章

订阅专栏

“难题揭榜”第100期-华为云难题第五期（全文整理）

发布时间：2024-07-08

开篇导语：
欢迎大家毛遂自荐、踊跃揭榜。对于解决难题或提供重大思路的，会给予及时激励！并张榜公布。如有任何问题，请直接与接口专家联系；如有其它建议，可与总架构师顾炯炯 dennis.gu@huawei.com 联系。

难题1（已揭榜）

标题：[AI平台-高可靠] AI集群中的任务调度和碎片卡整理技术

一、出题组织

E服务产品部。
接口专家：许天锡 xutianxi@huawei.com；唐盛军 tangshengjun@huawei.com；吕俊龙 lyujulong@huawei.com；陈挺 chenting53@huawei.com。

二、技术背景

AI模型训练规模持续扩大，硬件资源规模同步扩张，业界普遍构建大规模集群，多规格训练任务混合运行，以此提升资源利用率。
AI基础设施普遍采用裸机单机多卡（单机八卡）架构，训练/推理任务对卡数需求存在差异：单卡、2卡、4卡、8卡、N*8卡作业会混杂在同一集群。
训练与推理作业分批提交，作业生命周期长短不一。即便调度初期做到紧凑装箱，随着任务陆续结束，集群会产生大量零散GPU碎片。整体资源充足时，多卡作业也因凑不齐连续整卡资源无法启动，最终资源大量浪费。
现场统计：
- 空闲卡数（去除故障卡）占比：23.8%
- 碎片卡数（凑不齐8卡）占比：3.8%
- 合计资源浪费达到1/4
- 故障卡占比：1.9%

三、技术挑战

调度矛盾：单作业调度追求局部最优，作业队列全局调度追求整体最优，二者很难同时兼顾；全局最优会拉长单个作业的等待时长。
碎片整理路径：训练任务支持Checkpoint断点续跑，可以先暂停作业、重新调度再恢复运行。碎片作业的重调度时机与路径，会直接决定作业中断时长。

四、业界现有方案

任务调度：
- 单任务调度：使用紧凑装箱策略；
- 队列调度：等待少量时长，累积一批作业再批量调度，取得局部优化；
- 硬件隔离：利用GPU切片（MPS、MIG）拆分资源；
- 多队列调度：业界ML任务调度主流方案。
碎片整理：以用户手动触发重调度为主要手段。

五、技术诉求

调度效率：在随机到达、周期规律两种作业场景下，给出调度时长与资源利用率的形式化公式与数学证明，明确不同等待时长对排队时延、资源利用率的权衡关系。
碎片整理：在复杂碎片场景下，设计碎片卡时机策略+重调度路径策略，在资源利用率最大化的前提下，把对用户业务中断影响降到最低。
仿真验收指标：
- 集群环境：10台8卡节点，连续24小时仿真；
- 任务：随机多规格多卡训练作业；
- 目标：资源利用率从当前基线提升至70%~90%；
- 约束：任务排队时长增加值 < 0.2。
华为提供第一批仿真数据集，后续放出第二批更贴近生产的真实数据集用于二次验证。

参考文献：
https://pages.run.ai/hubfs/PDFs/Improve-GPU-Utilization-ebook.pdf
https://developer.nvidia.com/blog/improving-gpu-utilization-in-kubernetes/

难题2（已揭榜）

标题：[LLM SFT] 行业大模型SFT数据动态配比技术

一、出题组织

EI服务产品部。
接口专家：蒋昊 jianghao66@huawei.com；王宇飞 wangyufei1@huawei.com；陈挺 chenting53@huawei.com；朱国杰 zhuguojie2@huawei.com。

二、技术背景

SFT（监督微调）是大模型落地行业场景的核心手段，政务、金融、汽车、医疗、工业五大行业任务分布差异极大。
行业数据普遍稀缺，必须依靠SFT提升模型在垂直高价值场景的效果，是商业化落地的核心竞争力。
现存两大核心痛点：
- 知识遗忘：在连续多轮SFT任务中，模型会覆盖掉前序任务学到的行业知识；仅在最终任务调优会拉高应用成本，同时模型稳定性变差。
- 任务冲突：为了防止遗忘，把多任务数据混合训练，容易出现模型学习冲突，出现“顾此失彼”，无法同时兼顾多个业务任务效果。
现状：行业普遍采用固定比例混合多任务数据集，不仅无法解决冲突与遗忘，还额外增加了预训练+SFT来回反复迭代的训练成本。多源异构数据进一步加剧了遗忘与任务冲突。

三、技术挑战

知识遗忘：连续多轮SFT时，模型灾难性覆盖历史行业知识；若只做最后一轮微调，落地成本高、稳定性差。
任务冲突：多任务数据混训引发参数冲突，出现“顾此失彼”，多业务任务无法同时兼顾最优效果。
固定配比策略僵化：静态数据混合无法适配不同任务的数据分布与模型能力差异，训练迭代开销大。

四、当前业界结果

主流方案：固定比例混合多任务数据集，依靠经验设定配比。
缺陷：既无法缓解任务冲突，也无法抑制知识遗忘；多源数据叠加进一步恶化效果，还产生额外训练成本。

五、技术诉求

核心目标：结合SFT数据分布、模型当前收敛能力，提供数学优化算法，实现数据配比动态优化，训练过程中自适应调整各任务数据权重；最大化学习能力，同时兼顾多任务效果，不产生额外计算开销。
实验环境：
- 基座模型：LLaMA-2-7B、Pangu-38B；
- 评测数据集：GSM8K RFT、CodeAlpaca、ShareGPT；
- 评测基准：HumanEval、GSM8K、MT-Bench。
量化指标（对比固定比例基线）：
- 收敛后平均效果指标相对提升 > 5%；
- 收敛效率（每GPU-day收益）提升5倍以上；
- 遗忘率降低至 < 5%（相比单数据集SFT的效果下跌比例）。
形式化目标函数：
$max⁡T(r)(∑n=1Npn(r(t))+E(r(t)))\max_{T(r)}\left(\sum_{n=1}^{N}p_n(r(t))+E(r(t))\right)$
其中：
$r (t)$ ：t时刻的数据配比；
$p_n$ ：模型收敛后在第n个任务上的效果；
$E$ ：模型收敛效率。

参考文献：
[1] Dong G, Yuan H, Lu K, et al. How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition[J], 2023.
[2] Zhao W X, Zhou K, Li J, et al. A survey of large language models[J], 2023.

难题3（已揭榜）

标题：[数据]如何利用生成数据提升行业场景下的视觉理解能力

一、出题组织

EI服务产品部。
接口专家：蒋东生 jiangdongsheng1@huawei.com；徐航 xu.hang@huawei.com；王兴兴 wangxinghao1@huawei.com。

二、技术背景

高质量标注数据是监督视觉训练的核心燃料，但人工标注成本极高，可控数据生成成为行业破局方向。
华为云落地项目中，Diffusion模型、3D生成模型可以生成指定坐标、指定类别的行业对象，补齐电力、铁路等行业的数据缺口。
业界现有数据增强方案只能小幅提升精度，在工业垂直场景提升有限；通用Diffusion图像生成技术，无法做到行业指令可控生成。
案例：铁路零件缺陷生成、电网杆塔实景生成，现有方案难以精准控制目标物体位置与类别。

三、技术挑战

流水线冗长：如X-Paste方案需要串联4个子模型才能生成最终图像，链路长、耗时高，多级模型带来误差累积。
通用性差：现有流水线只针对检测、分割单一任务定制，缺少一套通用流水线，无法适配不同视觉任务；同时面向多行业的微调成本居高不下。
可控性差：行业场景下，指令遵循能力弱，无法按照用户指令精准生成指定位置、指定类别的目标物体。

四、当前业界结果

精度上限：现有方案在LVIS数据集上仅能带来2个点AP提升。
基线数据（LVIS）：
| Method | AP $^{box}$ | AP $^{mask}$ | AP $rbox^{box}_{r}$ | AP $rmask^{mask}_{r}$ |
|-----------------------|------------|-------------|----------------|-----------------|
| baseline | 34.5 | 30.8 | 24.0 | 21.6 |
| baseline+External Data| 35.3 | 31.7 | 25.3 | 27.4 |
| Copy-Paste (2022) | 35.4 | 31.5 | 29.5 | 22.1 |
| Detic (2022) | 35.3 | 31.7 | 27.5 | 25.1 |
| X-Paste | 36.6 | 32.7 | 28.5 | 26.5 |

五、技术诉求

通用性：流水线支持检测、分割等多类视觉任务，行业微调调优开销相比业界SOTA降低5%。
量化精度：基于SOTA检测模型，使用生成数据做数据增强，在LVIS数据集实现AP提升≥5个点。
可控性：数据生成链路支持用户指定目标物体的生成位置与类别。

难题4（已揭榜）

标题：[行业模型] 基于图数据的大模型知识增强

一、出题组织

EI服务产品部。
接口专家：陈冲 chenchong55@huawei.com；李小光 lixiaoguang11@huawei.com；陈挺 chenting53@huawei.com。

二、技术背景

大语言模型在纯文本任务效果突出，但处理结构化图数据（知识图谱、社交网络、分子网络、互联网链路）存在短板：图拓扑无法直接转化为文本序列。
金融、政企、医疗等行业客户沉淀了大量结构化知识图谱，如何让LLM高效理解图结构数据，支撑知识问答、链路预测、信息检索，是行业落地关键课题。

三、技术挑战

图拓扑构建：仅依靠非结构化文档、图文数据，自动构建高质量边-点拓扑网络；同时兼容多源异构数据，提升大规模图构建效率。
图数据降噪：图结构普遍存在残缺、噪声节点与错误链路，需要在不完整数据下修复拓扑，提升图数据可用性。
图+LLM融合：仅依靠有限图结构信息，增强大模型的图推理能力。

四、当前业界结果

模型层面：主流方法只把节点标题、摘要作为文本Prompt输入，忽略节点邻域高阶信息，链路预测、节点分类的Accuracy与Marco-F1指标偏低。
数据层面：主流图结构化方法只适配文本TAG类图，很难处理蛋白质网络、化学分子这类无文本节点的图；大图优化效率极低。

五、技术诉求

图拓扑构建：面向实体类型化、实体链接、关系抽取任务，设计图谱拓扑构建策略；基于图结构神经网络，用低成本生成大批量高质量图数据。
图文对齐：把图拓扑结构、节点信息设计成Graph Prompt，构造图网络与语言模型双向对齐范式，把文本与图信息映射到同一向量空间。
量化指标：
- 引文数据集ogbn-arxiv、商品数据集Ele-Computers节点分类任务：相比原生LLaMA、ChatGPT，Accuracy与Macro-F1提升50%以上。
- 图推理任务（染色、哈密顿回路）：在NLGraph、NPhardEval数据集上，相比ChatGPT，Accuracy与Credit提升50%以上。
- 知识图谱补全任务：WN18、FB15k数据集，Hits@k与MRR指标提升50%以上。

参考文献：
[1] Chen Z, Mao H, Li H, et al. Exploring the potential of large language models (LLMs) in learning on graphs[J]. arXiv preprint arXiv:2307.03393, 2023.
[2] Chen Z, Mao H, Li H, et al. Label-free node classification on graphs with large language models (LLMs)[J]. arXiv preprint arXiv:2310.04668, 2023.
[3] Wang H, Feng S, He T, et al. Can Language Models Solve Graph Problems in Natural Language?[J]. arXiv preprint arXiv:2305.10037, 2023.

难题5（已揭榜）

标题：无微调适配多领域的NL2SQL技术

一、出题组织

EI服务产品部&诺亚。
接口专家：梅逸男 yinan.mei@huawei.com；潘嘉城 panjiacheng@huawei.com；黎彧君 liyujun9@huawei.com。

二、技术背景

NL2SQL可以让业务人员用自然语言直接查询数据库，摆脱固定报表限制，满足灵活即时查询需求。
痛点一：通用基座大模型缺少行业术语、业务知识，在垂直领域不加微调时，准确率直接下跌10~30%。
痛点二：传统SFT方案成本极高：每个行业客户都要标注数千条SQL样本做微调，客户标注成本+云端训练部署成本极高；多客户场景下，每家都要独立微调，成本随客户数量线性暴涨。
目标：打造一套“无微调”NL2SQL技术，一版基座模型直接适配多行业客户，省去每家客户的标注+微调环节。

三、技术挑战

术语鸿沟：用户查询包含大量行业黑话、业务术语，这类语料几乎不存在于基座大模型预训练数据，模型无法理解业务语义。
元数据鸿沟：数据表名、字段名、枚举值都包含行业知识，大模型无法自动解析元数据语义，很难匹配查询与数据表、字段之间的关联关系。

四、当前业界结果

Schema检索现状：依靠分词+Embedding相似度检索候选表与字段。召回率高但精准度不足，会引入大量噪声字段，导致SQL生成选错字段。
无微调SQL生成现状：依靠Prompt把查询+Schema送入大模型，再做简单后处理纠错。不加微调时，垂直领域执行准确率普遍下跌10~30%。

五、技术诉求

无微调Schema检索技术：
- 数据集：BIRD基准数据集；
- 约束：保证99%召回率；
- 指标：字段检索准确率 ≥ 75%。
无微调SQL生成全链路方案：
- 基座：开源大模型；
- 数据集：BIRD；
- 指标：SQL执行准确率 ≥ 75%。

参考文献：
[1] NL2SQL is a solved problem… Not! In. CIDR 2024.
[2] Can LLM Already Serve as A Database Interface? A Big Bench for Large-Scale Database Ground Text-to-SQLs. In NeurIPS 2024.
[3] RAT-SQL: Relation-Aware Schema Encoding and Linking for Text-to-SQL Parsers. ACL 2020.
[4] Natural Language Interfaces for Databases with Deep Learning. In VLDB 2024.

最后更新时间：2025-12-10 09:31