
【V4上线与融资进程】
6月29日晚,DeepSeek宣布V4正式版将于7月中旬正式上线。公告中说明,为了更合理地配置资源、提升服务稳定性,正式版发布后将同步调整API定价策略,引入峰谷定价机制。过去两周,和DeepSeek相关的还有两件大事:一是6月16日,DeepSeek完成了成立以来首轮外部融资,募资总额510亿元,估值将近4000亿元,打破创始人梁文锋立下“不融资、不上市、不商业化”的原则;二是融资后仅十几天,6月27日,DeepSeek团队联合北京大学发布论文《DSpark: Confidence - Scheduled Speculative Decoding with Semi - Autoregressive Generation》,创始人梁文锋位列论文作者名单。
【融资后的人才布局】
如果说DeepSeek上半场的任务是证明自己能够做出世界一流的大模型,那么下半场,当“资本”和“技术”相汇,DeepSeek要拿着融资的钱,向世界证明,它是一家真正意义上的商业公司。500亿之后,DeepSeek开始补人。融资以来,DeepSeek Harness团队的新负责人崔添翼一刻没闲着。6月25日晚,DeepSeek在社交平台发布大规模招聘信息,覆盖算法、研发、运维、产品、数据工程师及职能部门等7大类、共33个岗位,工作地点包括北京和杭州,所有岗位均接受实习。在DeepSeek官网官号、Boss直聘、X和小红书等各类社交平台上,都能看到这位梁文锋的浙大校友、今年3月加入团队的负责人下场招人,顺便抽空“辟谣”。
此前,DeepSeek更像一个沉默、低调、闷声干活的技术员,背靠梁文锋创办的量化私募基金“幻方量化”。幻方量化2025年年化收益率56.55%,管理规模超过700亿元,让DeepSeek不需要依赖外部资本。在外界看来,DeepSeek似乎“并不缺钱”。让梁文锋改变融资态度的潜在可能是,核心人才流失和外部抢人大战加速。作为参照系,已经抢先上市的“大模型第一股”智谱,截至6月30日,总市值接近万亿港元,MiniMax的市值也超过1300亿港元。反观DeepSeek,员工手里的期权仍是一张白纸,公司不融资、不上市、没有外部估值参考。“不融资,它的估值就不往上走。员工手上就算有期权也不会涨。相比智谱、MiniMax,以及一些其他大模型团队,要么估值暴涨,要么上市以后暴涨。那DeepSeek的员工肯定都留不住。”一位接近DeepSeek的资深从业者谈及在此节点融资的原因时说。
留住人才的成本,也是一笔不小的开支。2025年,DeepSeek最大的竞争优势来自一支百余人的高学历的“天才”团队。几十位顶尖研究员,加上一位极具技术理想主义色彩的创始人梁文锋,创造出了DeepSeek - R1。今年,一边是各互联网大厂持续高薪“挖”顶级AI研究员,另一边,市场对AI人才的需求激增,公开数据显示,算法岗位月薪的中位数普遍超过2.4万元,头部人才月薪超过5万元,AI人才的溢价持续扩大。在此次大规模招聘的岗位中,除了全栈开发/算法、AI核心系统研发、运维、产品之外,值得关注的是,HR、法务、财务、采购、行政等职能部门也在扩招。全方位“扩编”释放出的信号是,DeepSeek还在补齐作为一家科技公司的组织能力。从“产品驱动”迈向“组织驱动”,这也是许多科技公司的必经之路——在组织逐步成熟、平台不断完善、人才激励机制建立之后,大规模的产品红利才开始释放。完成500亿融资,一方面是留人需要,另一方面则为补全组织架构提供了基础条件,但在这个过程中,DeepSeek能否“轻盈转身”,在扩招后仍保持“小团队作战”精简高效和决策链的灵活敏捷?这是DeepSeek“下半场”要回答的第一个问题。
【走向重资产之路】
在6月25日发布招聘信息的33个岗位中,有些岗位值得关注,即IDC(Internet Data Center互联网数据中心)数据中心团队,涉及基础设施建设。早在4月中旬,DeepSeek就在内蒙古乌兰察布发布了首批数据中心岗位,包括数据中心高级运维工程师和数据中心高级交付经理。到了6月,DeepSeek又新增了“IDC设计规划工程师”岗位。从数据中心运维、交付,再到设计规划,今年以来,DeepSeek的人才布局已经从模型延伸至算力基础设施建设。
伴随着大模型进入规模化训练和推理阶段,AI模型公司的竞争即将、也必然进入“基础设施”的硬件竞赛,这推动DeepSeek不得不和硅谷最前沿的头部大模型公司一样,加入到自建算力集群的重资产“烧钱”游戏当中。根据公开数据显示,美国科技巨头Alphabet、亚马逊、Meta和微软,预计今年将总共投资约6500亿美元来扩大人工智能相关基础设施。Anthropic、OpenAI也多次在公开披露的财务文件中强调,将持续加大算力基础设施投入。例如,Anthropic预计仅数据中心容量租赁,每月就将向SpaceX支付约12.5亿美元,一年就是150亿美元,还不包括GPU采购、网络、运维等。工信部信息通信经济专家委员会委员盘和林在此前采访中指出,当前AI投资热潮之下,大模型企业融资已是大势所趋。“不仅是DeepSeek,谷歌也融资800亿美元,行业已进入重资本阶段。”为了不在算力重资本建设上掉队,DeepSeek必须在资金上“开源”,拿到融资,继而投入算力、数据中心等基础设施建设。
值得注意的是,DeepSeek建设算力基础设施,是在海外先进算力出口受限的情况下进行的,这意味着上述算力将由国产芯片驱动,而在DeepSeek V4发布时,DeepSeek就在官方页面和技术报告里提到国产算力的探索。5月底,华为提出“韬(τ)定律”,试图通过器件、芯片、系统等全栈协同优化突破摩尔定律放缓带来的瓶颈;国产大模型也正加速适配国产算力,国产算力探索的目标是——“自主可控的AI基础设施”。
【AGI的前夜】
对于DeepSeek这样的基础模型公司来说,仅有资本和组织不足支持长期领先,关键是持续产出原创技术。一位资深算力从业者亦强调,DeepSeek本轮大规模融资,就是为了给团队激励、留下核心人才,“只有足够的融资,才能训出好模型,才能奠定头部位置。”
论文是DeepSeek在新技术探索方面的一个重要缩影。据不完全统计,近两年,DeepSeek公开发表了约27篇核心技术论文,研究方向覆盖MoE(混合专家)、强化学习、代码大模型、数学推理、多模态等等,几乎对应了其每一代核心模型和关键技术突破。就在6月27日,DeepSeek官方在GitHub上低调更新了一篇与“DSpark”新技术有关的论文。论文中,DeepSeek提出全新的推理加速框架“DSpark”,在不改变模型能力的前提下,大幅提升了大模型推理速度和系统吞吐。和此前不同,这篇论文并非迭代了新模型,而是在原有DeepSeek - V4 - Pro和DeepSeek - V4 - Flash基础上增加了一个推测解码模块,重点在于工程落地层面的优化。DeepSeek意图将DSpark部署在DeepSeek - V4线上服务系统、承接真实用户流量时,减少无效校验带来的算力浪费。论文中提及,“在不改变底层模型架构的情况下,将生成速度提高了60 - 85%。”对于每天都要处理海量API请求的AI公司而言,算力成本每降低一点,利润空间就会增加一点。
据VentureBeat今年2月份的消息,模型训练的费用只会越来越高。Anthropic的CEO Dario Amodei预测,未来一代前沿模型的培训成本将达到50亿至100亿美元。上述资深算力从业者表示,DeepSeek也将进入同样“烧钱”训练模型的阶段。为了支持DeepSeek的模型训练迭代,融资是早晚的事。更多的媒体解读道,在融资之后仅十几天便上线新论文,DeepSeek似乎在证明公司的核心节奏没有变,研发团队依旧保持着高频输出。
不论是上新模型还是建设数据中心,亦或是从“天才实验室”转变为商业化运营的AI公司,DeepSeek进化的尽头是AGI。在2024年接受《暗涌Waves》采访时,梁文锋就明确表态:“我们做的就是AGI(通用人工智能)。语言大模型可能是通往AGI的必经之路。”在免费阶段,用户对响应失败、对话中断、API限流等问题尚可容忍。一旦7月DeepSeek V4正式版上线后,用户对稳定性的要求也随之提高,问题若持续存在,将直接影响用户是否愿意将DeepSeek接入真实工作流和业务系统。来到付费端、开发者生态和企业场景,DeepSeek的工程能力将面临更严格的考验,模型能否真正走向大规模应用,也是进入AGI时代必须跨越的一道槛。
当用户希望DeepSeek推动中国大模型降本增效时,它自己心里还算着一笔账:正处于AGI的关键时期,首要目的是留住人,其次是要持续训练模型、不断在技术层面迭代出新,数据中心的基础设施“仗”也不能输。光靠梁文锋的量化私募基金幻方量化,还远远不够。2026年,DeepSeek启动融资是必然的选择。正如DeepSeek于6月25日晚发布的招聘公告写道:“当今人类正处于AGI的前夜。”下一步,DeepSeek要面对的是更长期、更烧钱的AGI竞赛。能否像在“大模型”竞赛中出圈一样,继续在AGI的进程中“领跑”,这是DeepSeek“下半场”要回答的第二个问题。
8

被折叠的 条评论
为什么被折叠?



