100 00 黄大年茶思屋“难题揭榜”第100期-华为云难题第五期(全文整理)

“难题揭榜”第100期-华为云难题第五期(全文整理)

发布时间:2024-07-08

开篇导语:
欢迎大家毛遂自荐、踊跃揭榜。对于解决难题或提供重大思路的,会给予及时激励!并张榜公布。如有任何问题,请直接与接口专家联系;如有其它建议,可与总架构师顾炯炯 dennis.gu@huawei.com 联系。


难题1(已揭榜)

标题:[AI平台-高可靠] AI集群中的任务调度和碎片卡整理技术

一、出题组织

E服务产品部。
接口专家:许天锡 xutianxi@huawei.com;唐盛军 tangshengjun@huawei.com;吕俊龙 lyujulong@huawei.com;陈挺 chenting53@huawei.com。

二、技术背景
  1. AI模型训练规模持续扩大,硬件资源规模同步扩张,业界普遍构建大规模集群,多规格训练任务混合运行,以此提升资源利用率。
  2. AI基础设施普遍采用裸机单机多卡(单机八卡)架构,训练/推理任务对卡数需求存在差异:单卡、2卡、4卡、8卡、N*8卡作业会混杂在同一集群。
  3. 训练与推理作业分批提交,作业生命周期长短不一。即便调度初期做到紧凑装箱,随着任务陆续结束,集群会产生大量零散GPU碎片。整体资源充足时,多卡作业也因凑不齐连续整卡资源无法启动,最终资源大量浪费。
  4. 现场统计:
    • 空闲卡数(去除故障卡)占比:23.8%
    • 碎片卡数(凑不齐8卡)占比:3.8%
    • 合计资源浪费达到1/4
    • 故障卡占比:1.9%
三、技术挑战
  1. 调度矛盾:单作业调度追求局部最优,作业队列全局调度追求整体最优,二者很难同时兼顾;全局最优会拉长单个作业的等待时长。
  2. 碎片整理路径:训练任务支持Checkpoint断点续跑,可以先暂停作业、重新调度再恢复运行。碎片作业的重调度时机与路径,会直接决定作业中断时长。
四、业界现有方案
  1. 任务调度:
    • 单任务调度:使用紧凑装箱策略;
    • 队列调度:等待少量时长,累积一批作业再批量调度,取得局部优化;
    • 硬件隔离:利用GPU切片(MPS、MIG)拆分资源;
    • 多队列调度:业界ML任务调度主流方案。
  2. 碎片整理:以用户手动触发重调度为主要手段。
五、技术诉求
  1. 调度效率:在随机到达、周期规律两种作业场景下,给出调度时长与资源利用率的形式化公式与数学证明,明确不同等待时长对排队时延、资源利用率的权衡关系。
  2. 碎片整理:在复杂碎片场景下,设计碎片卡时机策略+重调度路径策略,在资源利用率最大化的前提下,把对用户业务中断影响降到最低。
  3. 仿真验收指标:
    • 集群环境:10台8卡节点,连续24小时仿真;
    • 任务:随机多规格多卡训练作业;
    • 目标:资源利用率从当前基线提升至70%~90%;
    • 约束:任务排队时长增加值 < 0.2。
  4. 华为提供第一批仿真数据集,后续放出第二批更贴近生产的真实数据集用于二次验证。

参考文献:
https://pages.run.ai/hubfs/PDFs/Improve-GPU-Utilization-ebook.pdf
https://developer.nvidia.com/blog/improving-gpu-utilization-in-kubernetes/


难题2(已揭榜)

标题:[LLM SFT] 行业大模型SFT数据动态配比技术

一、出题组织

EI服务产品部。
接口专家:蒋昊 jianghao66@huawei.com;王宇飞 wangyufei1@huawei.com;陈挺 chenting53@huawei.com;朱国杰 zhuguojie2@huawei.com。

二、技术背景
  1. SFT(监督微调)是大模型落地行业场景的核心手段,政务、金融、汽车、医疗、工业五大行业任务分布差异极大。
  2. 行业数据普遍稀缺,必须依靠SFT提升模型在垂直高价值场景的效果,是商业化落地的核心竞争力。
  3. 现存两大核心痛点:
    • 知识遗忘:在连续多轮SFT任务中,模型会覆盖掉前序任务学到的行业知识;仅在最终任务调优会拉高应用成本,同时模型稳定性变差。
    • 任务冲突:为了防止遗忘,把多任务数据混合训练,容易出现模型学习冲突,出现“顾此失彼”,无法同时兼顾多个业务任务效果。
  4. 现状:行业普遍采用固定比例混合多任务数据集,不仅无法解决冲突与遗忘,还额外增加了预训练+SFT来回反复迭代的训练成本。多源异构数据进一步加剧了遗忘与任务冲突。
三、技术挑战
  1. 知识遗忘:连续多轮SFT时,模型灾难性覆盖历史行业知识;若只做最后一轮微调,落地成本高、稳定性差。
  2. 任务冲突:多任务数据混训引发参数冲突,出现“顾此失彼”,多业务任务无法同时兼顾最优效果。
  3. 固定配比策略僵化:静态数据混合无法适配不同任务的数据分布与模型能力差异,训练迭代开销大。
四、当前业界结果
  1. 主流方案:固定比例混合多任务数据集,依靠经验设定配比。
  2. 缺陷:既无法缓解任务冲突,也无法抑制知识遗忘;多源数据叠加进一步恶化效果,还产生额外训练成本。
五、技术诉求
  1. 核心目标:结合SFT数据分布、模型当前收敛能力,提供数学优化算法,实现数据配比动态优化,训练过程中自适应调整各任务数据权重;最大化学习能力,同时兼顾多任务效果,不产生额外计算开销。
  2. 实验环境:
    • 基座模型:LLaMA-2-7B、Pangu-38B;
    • 评测数据集:GSM8K RFT、CodeAlpaca、ShareGPT;
    • 评测基准:HumanEval、GSM8K、MT-Bench。
  3. 量化指标(对比固定比例基线):
    • 收敛后平均效果指标相对提升 > 5%;
    • 收敛效率(每GPU-day收益)提升5倍以上;
    • 遗忘率降低至 < 5%(相比单数据集SFT的效果下跌比例)。
  4. 形式化目标函数:
    max⁡T(r)(∑n=1Npn(r(t))+E(r(t)))\max_{T(r)}\left(\sum_{n=1}^{N}p_n(r(t))+E(r(t))\right)T(r)max(n=1Npn(r(t))+E(r(t)))
    其中:
    r(t)r(t)r(t):t时刻的数据配比;
    pnp_npn:模型收敛后在第n个任务上的效果;
    EEE:模型收敛效率。

参考文献:
[1] Dong G, Yuan H, Lu K, et al. How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition[J], 2023.
[2] Zhao W X, Zhou K, Li J, et al. A survey of large language models[J], 2023.


难题3(已揭榜)

标题:[数据]如何利用生成数据提升行业场景下的视觉理解能力

一、出题组织

EI服务产品部。
接口专家:蒋东生 jiangdongsheng1@huawei.com;徐航 xu.hang@huawei.com;王兴兴 wangxinghao1@huawei.com。

二、技术背景
  1. 高质量标注数据是监督视觉训练的核心燃料,但人工标注成本极高,可控数据生成成为行业破局方向。
  2. 华为云落地项目中,Diffusion模型、3D生成模型可以生成指定坐标、指定类别的行业对象,补齐电力、铁路等行业的数据缺口。
  3. 业界现有数据增强方案只能小幅提升精度,在工业垂直场景提升有限;通用Diffusion图像生成技术,无法做到行业指令可控生成。
  4. 案例:铁路零件缺陷生成、电网杆塔实景生成,现有方案难以精准控制目标物体位置与类别。
三、技术挑战
  1. 流水线冗长:如X-Paste方案需要串联4个子模型才能生成最终图像,链路长、耗时高,多级模型带来误差累积。
  2. 通用性差:现有流水线只针对检测、分割单一任务定制,缺少一套通用流水线,无法适配不同视觉任务;同时面向多行业的微调成本居高不下。
  3. 可控性差:行业场景下,指令遵循能力弱,无法按照用户指令精准生成指定位置、指定类别的目标物体。
四、当前业界结果
  1. 精度上限:现有方案在LVIS数据集上仅能带来2个点AP提升。
  2. 基线数据(LVIS):
    | Method | APbox^{box}box | APmask^{mask}mask | APrbox^{box}_{r}rbox | APrmask^{mask}_{r}rmask |
    |-----------------------|------------|-------------|----------------|-----------------|
    | baseline | 34.5 | 30.8 | 24.0 | 21.6 |
    | baseline+External Data| 35.3 | 31.7 | 25.3 | 27.4 |
    | Copy-Paste (2022) | 35.4 | 31.5 | 29.5 | 22.1 |
    | Detic (2022) | 35.3 | 31.7 | 27.5 | 25.1 |
    | X-Paste | 36.6 | 32.7 | 28.5 | 26.5 |
五、技术诉求
  1. 通用性:流水线支持检测、分割等多类视觉任务,行业微调调优开销相比业界SOTA降低5%。
  2. 量化精度:基于SOTA检测模型,使用生成数据做数据增强,在LVIS数据集实现AP提升≥5个点。
  3. 可控性:数据生成链路支持用户指定目标物体的生成位置与类别。

难题4(已揭榜)

标题:[行业模型] 基于图数据的大模型知识增强

一、出题组织

EI服务产品部。
接口专家:陈冲 chenchong55@huawei.com;李小光 lixiaoguang11@huawei.com;陈挺 chenting53@huawei.com。

二、技术背景
  1. 大语言模型在纯文本任务效果突出,但处理结构化图数据(知识图谱、社交网络、分子网络、互联网链路)存在短板:图拓扑无法直接转化为文本序列。
  2. 金融、政企、医疗等行业客户沉淀了大量结构化知识图谱,如何让LLM高效理解图结构数据,支撑知识问答、链路预测、信息检索,是行业落地关键课题。
三、技术挑战
  1. 图拓扑构建:仅依靠非结构化文档、图文数据,自动构建高质量边-点拓扑网络;同时兼容多源异构数据,提升大规模图构建效率。
  2. 图数据降噪:图结构普遍存在残缺、噪声节点与错误链路,需要在不完整数据下修复拓扑,提升图数据可用性。
  3. 图+LLM融合:仅依靠有限图结构信息,增强大模型的图推理能力。
四、当前业界结果
  1. 模型层面:主流方法只把节点标题、摘要作为文本Prompt输入,忽略节点邻域高阶信息,链路预测、节点分类的Accuracy与Marco-F1指标偏低。
  2. 数据层面:主流图结构化方法只适配文本TAG类图,很难处理蛋白质网络、化学分子这类无文本节点的图;大图优化效率极低。
五、技术诉求
  1. 图拓扑构建:面向实体类型化、实体链接、关系抽取任务,设计图谱拓扑构建策略;基于图结构神经网络,用低成本生成大批量高质量图数据。
  2. 图文对齐:把图拓扑结构、节点信息设计成Graph Prompt,构造图网络与语言模型双向对齐范式,把文本与图信息映射到同一向量空间。
  3. 量化指标:
    • 引文数据集ogbn-arxiv、商品数据集Ele-Computers节点分类任务:相比原生LLaMA、ChatGPT,Accuracy与Macro-F1提升50%以上。
    • 图推理任务(染色、哈密顿回路):在NLGraph、NPhardEval数据集上,相比ChatGPT,Accuracy与Credit提升50%以上。
    • 知识图谱补全任务:WN18、FB15k数据集,Hits@k与MRR指标提升50%以上。

参考文献:
[1] Chen Z, Mao H, Li H, et al. Exploring the potential of large language models (LLMs) in learning on graphs[J]. arXiv preprint arXiv:2307.03393, 2023.
[2] Chen Z, Mao H, Li H, et al. Label-free node classification on graphs with large language models (LLMs)[J]. arXiv preprint arXiv:2310.04668, 2023.
[3] Wang H, Feng S, He T, et al. Can Language Models Solve Graph Problems in Natural Language?[J]. arXiv preprint arXiv:2305.10037, 2023.


难题5(已揭榜)

标题:无微调适配多领域的NL2SQL技术

一、出题组织

EI服务产品部&诺亚。
接口专家:梅逸男 yinan.mei@huawei.com;潘嘉城 panjiacheng@huawei.com;黎彧君 liyujun9@huawei.com。

二、技术背景
  1. NL2SQL可以让业务人员用自然语言直接查询数据库,摆脱固定报表限制,满足灵活即时查询需求。
  2. 痛点一:通用基座大模型缺少行业术语、业务知识,在垂直领域不加微调时,准确率直接下跌10~30%。
  3. 痛点二:传统SFT方案成本极高:每个行业客户都要标注数千条SQL样本做微调,客户标注成本+云端训练部署成本极高;多客户场景下,每家都要独立微调,成本随客户数量线性暴涨。
  4. 目标:打造一套“无微调”NL2SQL技术,一版基座模型直接适配多行业客户,省去每家客户的标注+微调环节。
三、技术挑战
  1. 术语鸿沟:用户查询包含大量行业黑话、业务术语,这类语料几乎不存在于基座大模型预训练数据,模型无法理解业务语义。
  2. 元数据鸿沟:数据表名、字段名、枚举值都包含行业知识,大模型无法自动解析元数据语义,很难匹配查询与数据表、字段之间的关联关系。
四、当前业界结果
  1. Schema检索现状:依靠分词+Embedding相似度检索候选表与字段。召回率高但精准度不足,会引入大量噪声字段,导致SQL生成选错字段。
  2. 无微调SQL生成现状:依靠Prompt把查询+Schema送入大模型,再做简单后处理纠错。不加微调时,垂直领域执行准确率普遍下跌10~30%。
五、技术诉求
  1. 无微调Schema检索技术:
    • 数据集:BIRD基准数据集;
    • 约束:保证99%召回率;
    • 指标:字段检索准确率 ≥ 75%。
  2. 无微调SQL生成全链路方案:
    • 基座:开源大模型;
    • 数据集:BIRD;
    • 指标:SQL执行准确率 ≥ 75%。

参考文献:
[1] NL2SQL is a solved problem… Not! In. CIDR 2024.
[2] Can LLM Already Serve as A Database Interface? A Big Bench for Large-Scale Database Ground Text-to-SQLs. In NeurIPS 2024.
[3] RAT-SQL: Relation-Aware Schema Encoding and Linking for Text-to-SQL Parsers. ACL 2020.
[4] Natural Language Interfaces for Databases with Deep Learning. In VLDB 2024.


最后更新时间:2025-12-10 09:31

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值