500亿融资后DeepSeek全面进化：从大模型到AGI，能否持续领跑？

转载于 2026-07-01 17:30:09 发布 · 2 阅读

【V4上线与融资进程】

6月29日晚，DeepSeek宣布V4正式版将于7月中旬正式上线。公告中说明，为了更合理地配置资源、提升服务稳定性，正式版发布后将同步调整API定价策略，引入峰谷定价机制。过去两周，和DeepSeek相关的还有两件大事：一是6月16日，DeepSeek完成了成立以来首轮外部融资，募资总额510亿元，估值将近4000亿元，打破创始人梁文锋立下“不融资、不上市、不商业化”的原则；二是融资后仅十几天，6月27日，DeepSeek团队联合北京大学发布论文《DSpark: Confidence - Scheduled Speculative Decoding with Semi - Autoregressive Generation》，创始人梁文锋位列论文作者名单。

【融资后的人才布局】

如果说DeepSeek上半场的任务是证明自己能够做出世界一流的大模型，那么下半场，当“资本”和“技术”相汇，DeepSeek要拿着融资的钱，向世界证明，它是一家真正意义上的商业公司。500亿之后，DeepSeek开始补人。融资以来，DeepSeek Harness团队的新负责人崔添翼一刻没闲着。6月25日晚，DeepSeek在社交平台发布大规模招聘信息，覆盖算法、研发、运维、产品、数据工程师及职能部门等7大类、共33个岗位，工作地点包括北京和杭州，所有岗位均接受实习。在DeepSeek官网官号、Boss直聘、X和小红书等各类社交平台上，都能看到这位梁文锋的浙大校友、今年3月加入团队的负责人下场招人，顺便抽空“辟谣”。

此前，DeepSeek更像一个沉默、低调、闷声干活的技术员，背靠梁文锋创办的量化私募基金“幻方量化”。幻方量化2025年年化收益率56.55%，管理规模超过700亿元，让DeepSeek不需要依赖外部资本。在外界看来，DeepSeek似乎“并不缺钱”。让梁文锋改变融资态度的潜在可能是，核心人才流失和外部抢人大战加速。作为参照系，已经抢先上市的“大模型第一股”智谱，截至6月30日，总市值接近万亿港元，MiniMax的市值也超过1300亿港元。反观DeepSeek，员工手里的期权仍是一张白纸，公司不融资、不上市、没有外部估值参考。“不融资，它的估值就不往上走。员工手上就算有期权也不会涨。相比智谱、MiniMax，以及一些其他大模型团队，要么估值暴涨，要么上市以后暴涨。那DeepSeek的员工肯定都留不住。”一位接近DeepSeek的资深从业者谈及在此节点融资的原因时说。

留住人才的成本，也是一笔不小的开支。2025年，DeepSeek最大的竞争优势来自一支百余人的高学历的“天才”团队。几十位顶尖研究员，加上一位极具技术理想主义色彩的创始人梁文锋，创造出了DeepSeek - R1。今年，一边是各互联网大厂持续高薪“挖”顶级AI研究员，另一边，市场对AI人才的需求激增，公开数据显示，算法岗位月薪的中位数普遍超过2.4万元，头部人才月薪超过5万元，AI人才的溢价持续扩大。在此次大规模招聘的岗位中，除了全栈开发/算法、AI核心系统研发、运维、产品之外，值得关注的是，HR、法务、财务、采购、行政等职能部门也在扩招。全方位“扩编”释放出的信号是，DeepSeek还在补齐作为一家科技公司的组织能力。从“产品驱动”迈向“组织驱动”，这也是许多科技公司的必经之路——在组织逐步成熟、平台不断完善、人才激励机制建立之后，大规模的产品红利才开始释放。完成500亿融资，一方面是留人需要，另一方面则为补全组织架构提供了基础条件，但在这个过程中，DeepSeek能否“轻盈转身”，在扩招后仍保持“小团队作战”精简高效和决策链的灵活敏捷？这是DeepSeek“下半场”要回答的第一个问题。

【走向重资产之路】

在6月25日发布招聘信息的33个岗位中，有些岗位值得关注，即IDC（Internet Data Center互联网数据中心）数据中心团队，涉及基础设施建设。早在4月中旬，DeepSeek就在内蒙古乌兰察布发布了首批数据中心岗位，包括数据中心高级运维工程师和数据中心高级交付经理。到了6月，DeepSeek又新增了“IDC设计规划工程师”岗位。从数据中心运维、交付，再到设计规划，今年以来，DeepSeek的人才布局已经从模型延伸至算力基础设施建设。

伴随着大模型进入规模化训练和推理阶段，AI模型公司的竞争即将、也必然进入“基础设施”的硬件竞赛，这推动DeepSeek不得不和硅谷最前沿的头部大模型公司一样，加入到自建算力集群的重资产“烧钱”游戏当中。根据公开数据显示，美国科技巨头Alphabet、亚马逊、Meta和微软，预计今年将总共投资约6500亿美元来扩大人工智能相关基础设施。Anthropic、OpenAI也多次在公开披露的财务文件中强调，将持续加大算力基础设施投入。例如，Anthropic预计仅数据中心容量租赁，每月就将向SpaceX支付约12.5亿美元，一年就是150亿美元，还不包括GPU采购、网络、运维等。工信部信息通信经济专家委员会委员盘和林在此前采访中指出，当前AI投资热潮之下，大模型企业融资已是大势所趋。“不仅是DeepSeek，谷歌也融资800亿美元，行业已进入重资本阶段。”为了不在算力重资本建设上掉队，DeepSeek必须在资金上“开源”，拿到融资，继而投入算力、数据中心等基础设施建设。

值得注意的是，DeepSeek建设算力基础设施，是在海外先进算力出口受限的情况下进行的，这意味着上述算力将由国产芯片驱动，而在DeepSeek V4发布时，DeepSeek就在官方页面和技术报告里提到国产算力的探索。5月底，华为提出“韬（τ）定律”，试图通过器件、芯片、系统等全栈协同优化突破摩尔定律放缓带来的瓶颈；国产大模型也正加速适配国产算力，国产算力探索的目标是——“自主可控的AI基础设施”。

【AGI的前夜】

对于DeepSeek这样的基础模型公司来说，仅有资本和组织不足支持长期领先，关键是持续产出原创技术。一位资深算力从业者亦强调，DeepSeek本轮大规模融资，就是为了给团队激励、留下核心人才，“只有足够的融资，才能训出好模型，才能奠定头部位置。”

论文是DeepSeek在新技术探索方面的一个重要缩影。据不完全统计，近两年，DeepSeek公开发表了约27篇核心技术论文，研究方向覆盖MoE（混合专家）、强化学习、代码大模型、数学推理、多模态等等，几乎对应了其每一代核心模型和关键技术突破。就在6月27日，DeepSeek官方在GitHub上低调更新了一篇与“DSpark”新技术有关的论文。论文中，DeepSeek提出全新的推理加速框架“DSpark”，在不改变模型能力的前提下，大幅提升了大模型推理速度和系统吞吐。和此前不同，这篇论文并非迭代了新模型，而是在原有DeepSeek - V4 - Pro和DeepSeek - V4 - Flash基础上增加了一个推测解码模块，重点在于工程落地层面的优化。DeepSeek意图将DSpark部署在DeepSeek - V4线上服务系统、承接真实用户流量时，减少无效校验带来的算力浪费。论文中提及，“在不改变底层模型架构的情况下，将生成速度提高了60 - 85%。”对于每天都要处理海量API请求的AI公司而言，算力成本每降低一点，利润空间就会增加一点。

据VentureBeat今年2月份的消息，模型训练的费用只会越来越高。Anthropic的CEO Dario Amodei预测，未来一代前沿模型的培训成本将达到50亿至100亿美元。上述资深算力从业者表示，DeepSeek也将进入同样“烧钱”训练模型的阶段。为了支持DeepSeek的模型训练迭代，融资是早晚的事。更多的媒体解读道，在融资之后仅十几天便上线新论文，DeepSeek似乎在证明公司的核心节奏没有变，研发团队依旧保持着高频输出。

不论是上新模型还是建设数据中心，亦或是从“天才实验室”转变为商业化运营的AI公司，DeepSeek进化的尽头是AGI。在2024年接受《暗涌Waves》采访时，梁文锋就明确表态：‌“我们做的就是AGI（通用人工智能）。语言大模型可能是通往AGI的必经之路。”在免费阶段，用户对响应失败、对话中断、API限流等问题尚可容忍。一旦7月DeepSeek V4正式版上线后，用户对稳定性的要求也随之提高，问题若持续存在，将直接影响用户是否愿意将DeepSeek接入真实工作流和业务系统。来到付费端、开发者生态和企业场景，DeepSeek的工程能力将面临更严格的考验，模型能否真正走向大规模应用，也是进入AGI时代必须跨越的一道槛。

当用户希望DeepSeek推动中国大模型降本增效时，它自己心里还算着一笔账：正处于AGI的关键时期，首要目的是留住人，其次是要持续训练模型、不断在技术层面迭代出新，数据中心的基础设施“仗”也不能输。光靠梁文锋的量化私募基金幻方量化，还远远不够。2026年，DeepSeek启动融资是必然的选择。正如DeepSeek于6月25日晚发布的招聘公告写道：“当今人类正处于AGI的前夜。”下一步，DeepSeek要面对的是更长期、更烧钱的AGI竞赛。能否像在“大模型”竞赛中出圈一样，继续在AGI的进程中“领跑”，这是DeepSeek“下半场”要回答的第二个问题。