Dragonfly 介绍、更新和快手中的 AI 模型分发实践

文章介绍了DragonFly,一种由阿里云、蚂蚁和字节跳动开发的P2P解决方案,用于解决大规模节点下的带宽瓶颈问题。文章详细探讨了龙飞在AI场景中的应用,包括与JuiceFS集成、模型文件系统方案、镜像方案以及与Huggingfacehub等社区的结合。快手AI分享了其模型镜像分发实践,展示了DragonFly在实际场景中的优化效果。

第一阶段:DragonFly 基本介绍

介绍了 DragonFly 的历史背景

子项目 Nydus 介绍

Nydus 主要职责是镜像的去重、压缩,并且在镜像启动、运行过程当中进行按需加载,可以将端到端的启动速度从分钟级提升到秒级,同时 Nydus 也是由阿里云、蚂蚁、字节跳动三家公司研发的,DragonFly P2P 的解决方案。

为什么使用 DragonFly,解决了什么问题?

一句话概括:源站的带宽瓶颈问题

假设在上千、上万个节点,都需要加载一个镜像、文件或者是 AI 模型,这时候,就需要上千、上万次的并发下载文件。这个过程很容易达到带宽上限,导致整个加载流程的变慢,或者容器启动变慢。

解决方案:

  1. 提高带宽上限

    问题:硬件成本过高,且有瓶颈 -- 中心化的存储方案解决不了大规模场景

  2. 利用 P2P 方式,利用节点的闲置带宽来缓解带宽瓶颈

    问题:着力于大规模场景,小规模场景并不受很大影响

  3. 尽量少的加载资源

    问题:在构建镜像、文件、AI 模型时进行去重、压缩,并且在加载时做到按需加载

那么 DragonFly 就是结合第二和第三种方式来解决 源站带宽瓶颈问题的

近期大规模更新

  1. 重写可视化控制台,将 P2P 集群的部署操作、多集群方案定义的更加清晰,让用户的体验更好

  2. 智能化调度方案,两个数据: ①基于节点之间进行探测,构建一个虚拟的网络结构; ②基于节点之间的历史加载数据,通过 GNN 和 MLP 算法构建两个模型进行 predict ,选择最优的父节点进行调度。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值