如何降低大模型训练与推理计算成本，以确保它们在软件研发中的有效应用？

最新推荐文章于 2026-01-15 17:43:44 发布

原创最新推荐文章于 2026-01-15 17:43:44 发布 · 891 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#人工智能 #大数据 #研发效能度量 #研发效能 #数据挖掘

Wan2.2-I2V-A14B

Wan2.2是由通义万相开源高效文本到视频生成模型，是有50亿参数的轻量级视频生成模型，专为快速内容创作优化。支持480P视频生成，具备优秀的时序连贯性和运动推理能力

目前大语言模型（简称：大模型）在提效整个研发流程中的应用，很多体现在编码和自动化测试两个场景。

对于常规的编码环节，其实并不需要用到大模型的训练或推理。目前国内外有不少成熟的代码生成工具，这些工具有免费版也有付费版，企业可以根据自身需求选择合适的工具，根据这些工具的官方报价估算成本即可。

除此之外，不少企业希望大模型能够生成和自身业务相关的代码，这就会涉及对大模型进行微调（Fine-Tuning），并部署微调后的大模型进行推理，才能帮助企业内部员工实现相关业务代码的生成。整个流程主要涉及到两方面的成本计算：

1、微调阶段：这个阶段主要考虑训练大模型需要多少算力，这里有个公式可以参考。通过这个公式计算出总算力，除以每个 GPU 的理论算力，再除以 GPU 的有效算力利用比例，就得到了所需的 GPU-Hours（单个 GPU 运行的小时数），最后根据自身情况选择合适的显卡。

大模型训练算力计算公式：训练总算力（Flops）= 6 * 模型的参数量 * 训练数据的 token 数

以 LLaMA2 70B 为例，根据官方提供的数据套用公式，最后得到训练所需 1.7M GPU-Hours（A100），要是用 1 个 GPU，那得算 200 年。如果想在一个月内训练出结果，就得至少有 2400 块 A100，所需成本就可根据显卡在当时的市场价格做估算。

2、推理阶段：推理的关键指标是速率和并发数，所以需要结合团队数量和性能需求考虑。以 AWS G5 类型 EC2 为例（NVIDIA A10G），最低配置的机型能够满足以下需求：1000 以内的 token，基础模型 6B 或 7B，每分钟支持的并发数大概在 7-12，响应时间 3-6 秒（注意：芯片算力一直在进步，此处为当时的测试数据），而单个此机型每月的费用为 700 美金左右。如果企业对并发有更高的要求，只需要增加 G5 实例的配置或数量即可。

本文整理自《研发效能100问》，原作者：谭欣亚马逊云高级解决方案架构师

您可能感兴趣的与本文相关的镜像