Google DeepMind主管揭秘大模型研发:从‘干脏活’到技术逆袭,程序员不会被AI替代!

【Vlad Feinberg的日常与大模型竞争真相】

Google DeepMind的Gemini预训练主管Vlad Feinberg,最近在一档播客里聊了聊他的日常。在大众想象中,顶尖实验室研究员每天推导颠覆性算法,但Vlad职业生涯最重要的奖金,是谷歌传奇人物Jeff Dean亲手发的。当时他刚入职Google Brain,没像Transformer作者们一样写顶级会议论文,而是默默干了几天调整编译器和超参数、解决显存溢出等‘脏活’,让第一代Bard勉强跑通。这种‘干脏活’的工程体验,才是大模型竞争最真实的样子。

【Gemini 2.0背后的艰辛与媒体乱象】

Gemini 2.0出来时,外界赞叹它神奇,但Vlad透露背后只有5个人顶着。为不浪费算力费,他们24小时倒班死磕40天。甚至在DeepSeek - V3爆红、华尔街日报拉踩谷歌时,媒体故意删掉排名第一的Gemini 2.0 Flash Thinking。

【程序员不会被替代的原因】

对于‘程序员要失业’的恐慌,Vlad认为AI永远无法被‘吊销律师执照’,因为它不具备主体资格,无法承担法律责任,人类永远要为其产出签字背书。他组里的Nate Lintz,从搜索部门普通工程师,靠帮大模型落地解决推理开销,转岗成了DeepMind技术支柱。

【进入前沿实验室的‘硬核作业’】

Vlad在博客放了‘硬核作业’,手写Transformer并手算Scaling Laws录成视频发给他,做完直接面。以下是谈话里的行业细节:法律大模型不能出庭,职业底层逻辑是责任和信任分配,AI无法担责,程序员不会被替代;写学术论文不如帮团队省显存,扎实工程能力是硬通货;普通码农能逆袭进DeepMind,Nate Lintz就是例子;媒体拉踩谷歌,隐去排名第一的Gemini模型,真实技术对决是5个工程师硬撑。

【前沿实验室所需能力】

主持人问现在前沿实验室最需要的能力,Vlad表示覆盖范围广,大语言模型与研究、产品关系紧密,牵动不同方向。他重点写内核开发和底层工程,提升大语言模型执行效率的能力需求强。做研究项目修改架构等时,技术栈上的人要高效实现新方法,核心是制造高吞吐、低延迟的软件系统,这与传统后端工程思维紧密相连。

【Google DeepMind的组织区分】

主持人问Google DeepMind是否区分偏应用和偏研究组织,Vlad称内部有不同重点方向。有团队用Gemini改进搜索结果,算应用化方向,但把模型整合进产品需硬核研究。也有做预训练、后训练的纯研究团队,打造先进模型。不过‘纯研究’要能实现,研究和应用角色分不开,要能在光谱上自由切换。

【软件工程与人工智能研究的差别】

主持人问软件工程和人工智能研究差别,Vlad以‘蒸馏’为例,说明超大语言模型计算投入惊人,需优化系统。蒸馏基础设施经历多代演化,投入重写基础设施能换来对缩放规律的新认识和强模型表现,这要求跨越技术栈工作。

【研究与软件工程的思维差异】

主持人认为在计算规模下研究有跃迁,Vlad认同有分界点。研究是高风险、高回报活动,有‘研究品味’,研究里的图带随机性,与软件工程的确定性图不同。研究需转变思维方式,是马尔可夫决策过程,要考虑不同方向成功率和时间投入,培养判断力。

【后端工程师做研究的短板】

主持人问后端工程师进研究团队的短板,Vlad认为首先要具备研究背景,理解研究版图,做好文献梳理,培养判断力,选择值得读的论文。看懂研究级论文需机器学习和计算机科学背景,了解现有方法论才能改进。大语言模型研究核心是缩放规律,要预测模型测试损失,设计训练‘配方’,这些理解建立在早期缩放研究之上。

【评估候选人的关键能力】

主持人问选人标准,Vlad认为具备‘数学成熟度’,读懂论文、实现研究想法很重要。能深入理解想法并改造到应用场景,是处理机器学习论文数学概念的关键能力信号。

【值得钻研的领域】

主持人问对前沿人工智能研究重要的领域,Vlad认为编程语言研究有力量,如ThunderKittens提供抽象方式促进内核开发。强化学习文献也值得钻研,深度强化学习算法已应用于生产环境。分布式系统和优化的交叉地带也有趣,训练算法设计影响神经网络收敛和质量。

【不同前沿实验室对人的要求】

主持人问不同前沿实验室对人的要求差别,Vlad认为实验室商业策略和产品服务有别,但看重的能力重叠大,他文章发出后,OpenAI和Anthropic的人也认同建议。

【研究能力的重要性】

主持人担心大语言模型会取代研究工作,Vlad认为研究能力会更重要,要学会利用人工智能搭系统,人类在组织中承担信任网络角色,资源分配决策需人负责,如大语言模型不能出庭,法律职业依然存在。

【应对恐惧营销的建议】

主持人认为Vlad写文章是因恐惧气氛,Vlad觉得人们应有建设性心态,投资有意义的能力,不要被恐惧营销带偏。

【向前沿实验室展示自己的信号】

主持人问向前沿实验室展示自己的重要信号,Vlad认为要拿出真实证据,证明沿着相关方向做出对别人有用的东西,如优化开源大语言模型、为相关项目做贡献,这是强候选人信号,也是对开源社区的贡献。

【内部转岗的建议】

主持人问内部转岗建议,Vlad以同事Nate Lintz为例,认为如果所在组织利用模型,把大语言模型高效应用到组织里,会创造业务价值,也会成为研究团队重要合作方,转岗或不转岗都在做前沿工作。

【招聘邀请与自我成长】

主持人让Vlad讲招聘邀请,Vlad表示如果通过具体练习证明有相关能力,他愿意认真看。完成《缩放之书》题目、Transformer练习等发给他,会是有力证据,能在纽约办公室工作就愿意面试。已有不少人联系,他已推进一些人面试流程。即便招满,也乐意帮忙推荐。

【预训练的工作与挑战】

主持人让Vlad讲预训练,Vlad称团队负责交付Flash模型和Flash - Lite模型,用于搜索等,也是Google和Apple合作的关键技术负责人。研究分三个方向:蒸馏、推理协同设计、新的量化方法。量化可减少神经网络权重存储体积,降低电力消耗,提高运行效率,核心问题是把前沿往四位之外推进。

【模型浮点运算利用率的解释】

主持人让Vlad解释模型浮点运算利用率,Vlad称其是神经网络实际浮点运算次数与硬件加速器理论总浮点运算次数的比例,反映硬件浮点运算能力利用情况。因神经网络需做多种操作,无法一直按处理器标称峰值运行,推理协同设计就是协调芯片能力,提高利用率,且随硬件变化,最优神经网络形状也会变化。

【Jeff Dean的即时奖金故事】

主持人让Vlad讲Jeff Dean的即时奖金故事,Vlad称在Gemini项目刚开始,Jeff给参与Bard第一版发布的人奖金,他做了监督微调小贡献。当时他执着于发论文,经理鼓励他投入工程工作,这次经历推动他在大语言模型方向发展,让他认识到参与高价值项目需投入不光鲜的工作。

【Gemini的故事:Flash 2.0】

主持人问Vlad最喜欢的Gemini故事,Vlad选Flash 2.0。其核心优化目标是延续Flash 1.5定位,做快且质量强的模型。混合专家模型因参数多、通信量大有瓶颈,同事提出把流水线式预填应用到混合专家模型上,改变通信模式,降低通信开销,使Gemini 2.0成为可能。训练Flash 2.0艰苦,团队小,40天基本没睡,双班倒盯着训练。模型发布时,《华尔街日报》文章误导,但实际Flash 2.0 Thinking领先于DeepSeek - V3。

【给刚毕业自己的建议】

主持人让Vlad给刚毕业的自己建议,Vlad称要追世界真正面对的问题,不要害怕切入小部分。还要成为别人愿意看到他成功的同事,友好合作的方式能培养协作感和互相帮助的意愿,对做成大项目很重要。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值