如何降低大模型训练与推理计算成本,以确保它们在软件研发中的有效应用?

Wan2.2-I2V-A14B

Wan2.2是由通义万相开源高效文本到视频生成模型,是有​50亿参数的轻量级视频生成模型,专为快速内容创作优化。支持480P视频生成,具备优秀的时序连贯性和运动推理能力

目前大语言模型(简称:大模型)在提效整个研发流程中的应用,很多体现在编码和自动化测试两个场景。

对于常规的编码环节,其实并不需要用到大模型的训练或推理。目前国内外有不少成熟的代码生成工具,这些工具有免费版也有付费版,企业可以根据自身需求选择合适的工具,根据这些工具的官方报价估算成本即可。

除此之外,不少企业希望大模型能够生成和自身业务相关的代码,这就会涉及对大模型进行微调(Fine-Tuning),并部署微调后的大模型进行推理,才能帮助企业内部员工实现相关业务代码的生成。整个流程主要涉及到两方面的成本计算:

1、微调阶段:这个阶段主要考虑训练大模型需要多少算力,这里有个公式可以参考。通过这个公式计算出总算力,除以每个 GPU 的理论算力,再除以 GPU 的有效算力利用比例,就得到了所需的 GPU-Hours(单个 GPU 运行的小时数),最后根据自身情况选择合适的显卡。

大模型训练算力计算公式:训练总算力(Flops)= 6 * 模型的参数量 * 训练数据的 token 数

以 LLaMA2 70B 为例,根据官方提供的数据套用公式,最后得到训练所需 1.7M GPU-Hours(A100),要是用 1 个 GPU,那得算 200 年。如果想在一个月内训练出结果,就得至少有 2400 块 A100,所需成本就可根据显卡在当时的市场价格做估算。

2、推理阶段:推理的关键指标是速率和并发数,所以需要结合团队数量和性能需求考虑。以 AWS G5 类型 EC2 为例(NVIDIA A10G),最低配置的机型能够满足以下需求:1000 以内的 token,基础模型 6B 或 7B,每分钟支持的并发数大概在 7-12,响应时间 3-6 秒(注意:芯片算力一直在进步,此处为当时的测试数据),而单个此机型每月的费用为 700 美金左右。如果企业对并发有更高的要求,只需要增加 G5 实例的配置或数量即可。

本文整理自《研发效能100问》,原作者:谭欣 亚马逊云 高级解决方案架构师

您可能感兴趣的与本文相关的镜像

Wan2.2-I2V-A14B

Wan2.2-I2V-A14B

图生视频
Wan2.2

Wan2.2是由通义万相开源高效文本到视频生成模型,是有​50亿参数的轻量级视频生成模型,专为快速内容创作优化。支持480P视频生成,具备优秀的时序连贯性和运动推理能力

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值