第一阶段:DragonFly 基本介绍
介绍了 DragonFly 的历史背景
子项目 Nydus 介绍
Nydus 主要职责是镜像的去重、压缩,并且在镜像启动、运行过程当中进行按需加载,可以将端到端的启动速度从分钟级提升到秒级,同时 Nydus 也是由阿里云、蚂蚁、字节跳动三家公司研发的,DragonFly P2P 的解决方案。
为什么使用 DragonFly,解决了什么问题?
一句话概括:源站的带宽瓶颈问题
假设在上千、上万个节点,都需要加载一个镜像、文件或者是 AI 模型,这时候,就需要上千、上万次的并发下载文件。这个过程很容易达到带宽上限,导致整个加载流程的变慢,或者容器启动变慢。
解决方案:
-
提高带宽上限
问题:硬件成本过高,且有瓶颈 -- 中心化的存储方案解决不了大规模场景
-
利用 P2P 方式,利用节点的闲置带宽来缓解带宽瓶颈
问题:着力于大规模场景,小规模场景并不受很大影响
-
尽量少的加载资源
问题:在构建镜像、文件、AI 模型时进行去重、压缩,并且在加载时做到按需加载
那么 DragonFly 就是结合第二和第三种方式来解决 源站带宽瓶颈问题的
近期大规模更新
-
重写可视化控制台,将 P2P 集群的部署操作、多集群方案定义的更加清晰,让用户的体验更好
-
智能化调度方案,两个数据: ①基于节点之间进行探测,构建一个虚拟的网络结构; ②基于节点之间的历史加载数据,通过 GNN 和 MLP 算法构建两个模型进行 predict ,选择最优的父节点进行调度。

文章介绍了DragonFly,一种由阿里云、蚂蚁和字节跳动开发的P2P解决方案,用于解决大规模节点下的带宽瓶颈问题。文章详细探讨了龙飞在AI场景中的应用,包括与JuiceFS集成、模型文件系统方案、镜像方案以及与Huggingfacehub等社区的结合。快手AI分享了其模型镜像分发实践,展示了DragonFly在实际场景中的优化效果。


被折叠的 条评论
为什么被折叠?



