095 目录黄大年茶思屋“难题揭榜” 第 95 期 -- 云核心网领域第三期完整技术难题逐条整理

原创于 2026-06-30 19:13:38 发布 · 159 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能

黄大年榜文揭榜和答疑专栏收录该内容

164 篇文章

订阅专栏

难题 1：面向网络流量的预训练大模型技术

一、技术背景

5G 覆盖 eMBB、URLLC、mMTC 三大场景，5G 核心网作为移动网络控制中枢，需提升智能化水平适配人车物差异化连接需求。
5G 核心网智能化催生网络 AI 技术（应用识别、体验评估、质差分析等），现有 AI 模型存在开发难度大、成本高、泛化差问题：依赖高质量标注数据，数据量不足、分布不均会大幅削弱模型泛化能力。
预训练模型依托自监督学习，从无标注样本学习可迁移参数，微调适配下游任务，已在 NLP、计算机视觉广泛落地。
目标：构建面向网络流量的预训练网络大模型，统一整合各类网络 AI 任务，依托海量流量训练数据，提升多任务性能与泛化能力。

二、技术挑战

统一序列表达：设计适配网络流量的 Tokenizer 与 Embedding 方案；网络流量层级结构复杂，包含用户、流、突发、报文、协议字段多层关联关系。
高效模型架构：适配网络流量的基础模型、多任务模型结构选型与设计。
高效优化目标：设计面向流量样本的预训练、微调任务；模型充分挖掘流量样本信息，实现快速、低成本学习。

三、当前结果

应用感知小模型：TOP300 应用识别、8 大类应用独立同分布场景效果优，识别准确率＞90%；流量变化场景准确率平均下降 20%，最差下降 80%，重度依赖标注拨测数据，泛化能力弱。
体验评估小模型：准确率受网络、应用行为影响大；正常网络下直播 / 点播 / 短视频 3 大类 13 个 APP 清晰度、卡顿指标准确率＞90%；弱网、拥塞场景准确率下降 20%；不同应用传输协议、流量模式差异大，需逐场景定制模型。
面向网络流量预训练大模型：暂未落地成熟方案。

四、技术诉求

能力要求：设计适配流量数据的序列化表达、模型架构、预训练任务；微调支撑 3 类下游任务（TOP300 应用识别、8 大类识别、3 大类 13 个 APP 清晰度 / 卡顿评估），华为自研数据集准确率≥95%。
泛化性：预训练模型可快速适配流量、网络状态变化；对比随机森林、MLP 等传统模型，同等准确率下标注数据需求降低至原 10%。

参考文献

[1] ET-BERT: A Contextualized Datagram Representation with Pre-training Transformers for Encrypted Traffic Classification. In WWW 2022 [2] NetGPT: Generative Pretrained Transformer for Network Traffic. In arxiv 2023

难题 2：高性能、适用于 NPU 硬件的 Training-free 大模型剪枝算法

一、技术背景

大模型参数量持续膨胀，推理算力需求激增；云核场景要求低成本、高性能，需在端侧有限算力部署百亿参数大模型，小型化剪枝是降推理成本、实现端侧部署、提升推理性能的核心突破方向。
传统剪枝两大缺陷：剪枝后重训练周期长达数周、成本高；大模型受离群值影响精度损失显著，压缩比例越高精度衰减越严重。
业界方案 SparseGPT 在 GPU 效果良好，但非结构化 / 2:4 半结构化剪枝思路无法在 NPU 实现推理加速；310P 算力仅 70TFLOPS，为 910B 的 1/4，无硬件加速则无法满足云核心网极致推理诉求。
剪枝后稀疏模型微调周期长、调优成本高。

二、技术挑战

研发可商用 NPU 侧大模型无训练剪枝算法，支撑云核心网场景大模型 NPU 离线剪枝，可对 Llama-2-70B 实现 30%/50% 剪枝，满足两类指标：

剪枝 30% 参数量，无需重训练，多测评集平均推理精度劣化＜2%；
剪枝 50% 参数量，剪枝后小时级重训练，多测评集平均推理精度劣化＜2%。
实现 30% 以上推理速度增益，匹配云业务极致性能需求。

三、当前结果

现有 SparseGPT 剪枝方案存在两处短板：

NPU 原生不支持该算法，迁移需改造 MindSpore、CANN 适配；
半结构化剪枝架构在达芬奇硬件无计算加速收益。

四、技术诉求

验证链路：算法 / 算子方案→开源数据集（MMLU、GSM8K、HumanEval、Math-500）验证→华为自有数据集验证→全量数据集落地，达成全部指标：（1）精度约束：剪枝率 30% 无重训练，全场景推理精度劣化＜0.5%；剪枝率 50%，推理指标劣化＜1%。（2）性能约束：剪枝后充分利用 NPU 硬件加速，降低显存占用，计算速度提升 30% 以上。

难题 3：低时延无障碍原声传译技术

一、技术背景

5G 核心网升级后，通话网络拓展超清、AI、交互能力；网侧引入 AI 无需终端升级，即可提供创新业务，无障碍通话为核心能力：通话中 AIGC 生成对端语言音频，实时传译同时保留原说话人语气、情绪、停顿、音色，兼顾语义准确与自然度。
整体技术链路分为三阶段：原声 Encoder 网络预训练、T2A 音频生成网络预训练、A2A 原声传译微调。

二、技术挑战

时延约束：传统分段转写 + 翻译链路时延极高，无法实时传译；需流式输出，大幅压低端到端时延同时保障语义准确。
数据约束：A2A 原声传译数据质量标准极高，大规模采集难度大，仅少量样本可微调；无法直接搭建端到端网络，需分段构建；T2A/A2T 数据依赖翻译、ASR 工具合成，合成数据清洗校准难度大。

三、当前结果

T2A 特征注入：仅完成音色克隆可行性验证，语气、情绪、停顿维度未验证；
数据储备：拥有海量无标注音频数据；
现有能力：翻译中心具备 ASR + 翻译能力，但仅适配同声传译场景，基线时延 1.6s、中英 BLEU23.8；无障碍原声传译在时延、语音自然度存在明显短板，需深度升级。

四、技术诉求

基础指标：语义 BLEU＞25；语音自然度 SMOS＞4.0；端到端时延＜1s；仅支持中英互译。
挑战指标：语义 BLEU＞35；语音自然度 SMOS＞4.5；端到端时延＜300ms；语句语义分割精度≥98%；音色 / 风格 / 韵律相似度余弦相似度＞0.8；支持中英日韩等 20 + 语种。

参考文献

[1] https://arxiv.org/pdf/2305.17547.pdf [2] [2106.07447] HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units [3] https://aclanthology.org/2020.acl-main.58.pdf [4] [2006.04558] FastSpeech 2: Fast and High-Quality End-to-End Text to Speech [5] https://github.com/keonlee9420/STYLER

难题 4：电信网络异构 (多模态) 语料关联编码技术

一、技术背景

运维领域包含 KPI、信令、配置等多源数据，支撑故障定位；现有核心网知识、运维数据无统一编码方案，无法识别数据内在关联，不能联动分析，故障边界无法精准界定。
整体技术架构：多类原始数据独立预处理后输入多模态多任务大模型，结合业务知识库 Prompt 指导数据分析，输出多类故障分析任务结果。
数据类型覆盖：时序指标 Perf、告警序列 Alarm、运行日志 Debuglog、半结构化信令 MML、信令序列 CHR、产品文档、3GPP 协议文档、网络流量时序数据，分别适配运维 / 网络大模型。

二、技术挑战

多模态数据种类繁杂，预处理难度高；网络拓扑、设备配置、VoNR/VoLTE 业务知识等非结构化语料缺少统一编码技术。
多模态数据强关联、存在因果依赖，需要融合知识与数据混合编码，实现知识、数据精准关联对齐。

三、当前结果

仅信令数据实现流程 - 消息 - 信元三层编码；MML、KPI 等其余单模态数据无成熟编码方案，无法开展多源运维数据联动分析、异常识别。

四、技术诉求

研发异构多模态数据关联编码技术，实现多模态数据语义对齐、复杂故障边界判定；基于华为自有数据集，异常识别准确率≥99%，覆盖两类异常：

数据表征异常：指标零值、突增突降；
关联关系异常：会话数远小于用户数等链路异常。

难题 5：三方 CaaS 下 CloudOS 存储 Bypass 关键技术

一、技术背景

存储 Bypass 定义：后端存储故障时，虚拟机及业务可稳定运行一段周期（平台层最长 24h，网元层最长 4h）；实时检测存储状态，故障时业务、最小维护通道与存储解耦持续运行。
原生 CloudOS 缺陷：虚拟机场景强依赖远端存储，底层存储故障会导致上层容器卡死、业务中断；现有定制化内存启动方案可实现存储解耦，但存在侵入式修改 CloudOS 的缺陷。
架构说明：虚拟机分为华为自有业务容器、第三方平台容器；底层依赖 HOSTOS、OpenStack、Qemu/KVM，数据持久化依托远端 SAN / 分布式存储，本地磁盘仅做辅助。

二、技术挑战

原生三方 CaaS CloudOS（容器 OS+K8s Agents + 容器引擎）存储耦合度高，原生不具备故障 Bypass 能力。
云原生三层解耦发布架构，虚拟机 CloudOS 由第三方提供，不支持侵入式底层修改。

三、当前结果

远端存储故障场景，虚拟机 CloudOS 存在卡死现象，上层容器重启复位，业务无法平稳运行；主流 CaaS 平台无存储 Bypass 能力，仅华为电信云平台具备该能力。
存储故障恢复后，容器访问远端存储权限异常（只读无法切换读写），业务无法恢复。
现有可行方案：将 CloudOS 关键配置文件内存化；长期方案推动开源社区原生支持内存化。