当前位置:首页 > 元宇宙 > AI

大模型爆发倒逼算力升级,火山引擎分享“AI全栈云”经验

来源: 责编: 时间:2024-08-28 07:14:05 235观看
导读AI大模型的爆发式增长,正驱动着算力需求不断升级,云基础设施在集群建设和管理、性能、稳定性等方面都面临着严峻挑战。火山引擎基于字节跳动在大模型领域的实践沉淀,带来更高性价比的算力资源和一站式资源服务,持续助力企

AI大模型的爆发式增长,正驱动着算力需求不断升级,云基础设施在集群建设和管理、性能、稳定性等方面都面临着严峻挑战。Yc728资讯网——每日最新资讯28at.com

火山引擎基于字节跳动在大模型领域的实践沉淀,带来更高性价比的算力资源和一站式资源服务,持续助力企业 AI转型落地。8月21日,2024火山引擎AI创新巡展上海站活动成功举办,火山引擎云基础产品负责人罗浩发表演讲,详细介绍了面对算力需求的升级,火山引擎的具体应对方法和措施。Yc728资讯网——每日最新资讯28at.com

罗浩表示,早在2019年,火山引擎已经观察到了由Transformer带来的更大规模算力需求。并且随着算力大规模爆发式增长,也带来了计算模式的变化,计算从“单节点模式”向“集群模式”演化。Yc728资讯网——每日最新资讯28at.com

为了满足AI领域的算力增长,火山引擎首先打造更新的基础设施,如新一代GPU型算力,以及能够容纳这些算力的新一代机房等。Yc728资讯网——每日最新资讯28at.com

在此基础上,则是打造新一代互联技术,将多达数十万个计算节点互联起来,支持近似线性加速比。Yc728资讯网——每日最新资讯28at.com

罗浩介绍,由于不同算力资源池的节点阈值不同,当小于8个节点的时候,调度都在一台服务器内部完成,但当节点大于500的时候,可能就需要跨机架调度,而当节点大于1000或更多时,需要跨两至三层的交换机调度,所涉及到的网络架构管理内容,包括通信协议、拥塞控制等等,其性能挑战的难度将逐步增大。Yc728资讯网——每日最新资讯28at.com

因此,随着AI大模型的爆发,任务已从单节点来到多节点,甚至达到万卡规模,故障域也变得更大。Yc728资讯网——每日最新资讯28at.com

如此大的故障域中,如何在当某个节点发生故障时能快速识别问题,及时剔除故障节点,节省计算成本,就存在相当严峻的挑战。Yc728资讯网——每日最新资讯28at.com

图片 1.png

火山引擎云基础产品负责人罗浩Yc728资讯网——每日最新资讯28at.com

因此火山引擎提出“AI全栈云”,包含三个方面。Yc728资讯网——每日最新资讯28at.com

一、集中使用资源和算力。最大程度上避免由于分布式数据中心建设带来的算力孤岛和存储孤岛问题。Yc728资讯网——每日最新资讯28at.com

二、所有的IaaS层产品、PaaS层产品、数据产品、安全产品甚至推荐算法还有AI产品,都在同一朵云上,采用同样的软件架构、通信协议,使得数据流动、业务通信保持最高效的,同时也更加安全。Yc728资讯网——每日最新资讯28at.com

三、大算力资源池建设和自研硬件,以及自研网络通信协议、拥塞控制算法等能力相结合,实现规模更大、性能更强、稳定性更高和成本更优。Yc728资讯网——每日最新资讯28at.com

罗浩表示,目前火山引擎能够做到在分钟级别调度千卡规模资源池,以应对弹性任务。互联能力方面,单机互联能力已经从800G提升到了3.2T,增长了4倍。同时火山引擎还提供覆盖全球的网络,能够支持2TB/秒吞吐并行文件存储。Yc728资讯网——每日最新资讯28at.com

在高可用方面,火山引擎做了充分的压测左移体系,会在批量机器交付之前,抽样比较大的集群同时部署上容器、虚拟机、物理机进行测试,确保高可用性。拥有这样的压测能力,即可快速发现问题,结合冷迁移技术,将故障节点在离线状态或在线状态剥离出去,使得任务持续运行。Yc728资讯网——每日最新资讯28at.com

成本方面,火山引擎除对大规模算力资源池集中使用之外,对于loadbook、DevOps等短期任务,只会用单张卡或0.5张卡,提供更加灵活、更小粒度的资源使用方式。同时,火山引擎的网络负载均衡还能够感知到训练推理体系里的KVCache、过热导致的调度不均匀问题,达到更高的调度效能。Yc728资讯网——每日最新资讯28at.com

在存储方面,除VPFS超大规模、超大性能存储之外,火山引擎还提供LAS缓冲层、CFS、TOS分层性价比更高的存储。Yc728资讯网——每日最新资讯28at.com

罗浩表示,火山引擎基于字节跳动在大模型领域的实践沉淀,以技术驱动的极致性价比让大模型人人用得起,陪伴客户一起成长。未来,火山引擎全栈 AI服务将持续助力企业 AI 转型落地,激发业务增长潜能。Yc728资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-6487-0.html大模型爆发倒逼算力升级,火山引擎分享“AI全栈云”经验

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 拼多多市值一夜蒸发550亿,黄峥首富宝座还能坐稳吗?

下一篇: 浪潮分布式多模数据库 KaiwuDB 2.0 正式开源!

标签:
  • 热门焦点
  • AI界地震!美国对OpenAI展开调查!监管风暴来袭!

    来源:清元宇宙还记得5月OpenAI在国会山听证会上的自信、坦诚、游刃有余的问答吗?那时的Sam Altman可谓意气风发,在耐心、友好的国会议员面前,就AI立法、大模型安全性问题侃侃而
  • 元宇宙里卖酸奶,好炸裂的操作!

    作者 | 李东阳 来源 | 首席营销官有没有发现,当下的热搜出现一个有意思的现象,那就是“情怀”不知不觉成为了主流,爷青回话题讨论性非常高。前有名侦探柯南和优衣库
  • 2021年中国元宇宙行业用户行为分析热点报告

    元宇宙网络热度高涨,中国网民对虚拟生态兴趣浓厚。艾媒咨询数据显示,超六成的网民对“元宇宙”了解程度较高,在元宇宙较基础的游戏领域,超九成的人对VR游戏更感兴
  • 借VR产业东风,江西抢滩布局“元宇宙”

    自2016年起就在VR上倾注了大量精力的江西省,迅速搭上了“元宇宙”。VR、AR等技术是通往元宇宙的关键接口,使人们可以在数字空间和物理空间自由穿梭。自2016年起
  • NFT Insider #47:YGG发布2021Q4社区报告,GameFi领域1月份获超10亿美元融资

    引言:NFT Insider由WHALE社区、BeepCrypto联合出品,浓缩每周NFT新闻,为大家带来关于NFT最全面、最新鲜、最有价值的讯息。每期周报将从NFT市场数据,艺术新闻类,游戏
  • Meta 在衰落吗?

    扎克伯格已经很久没有出现在公众视野里了,近日,他罕见的接受播客采访,在两个小时的时间里畅谈了Meta、Facebook、Instagram、元宇宙的未来。正方观点:是的阿伦·达
  • 2022年元宇宙系列报告:UGC当道,XR带来新交互体验

    UGC作为元宇宙的主要内容创作模式,已经越来越多的呈现于游戏、娱乐、社交、传媒等方面,UGC模式勾勒了元宇宙的边界,现今元宇宙UGC模式的主要呈现方式以元宇宙概念
  • 元宇宙+剧本杀:“在异世界里当演员”

    你玩过剧本杀吗?体验过“元宇宙+剧本杀”吗?2月,恒信东方推出了一款次时代剧本杀原创作品——《失落的王朝》。其剧本和线索以数字化资产打造,通过VR技术塑造了与
  • 全球十大元宇宙概念游戏

    A股市场中,不少游戏公司早早搭上了元宇宙概念。举例,中青宝宣称将发布一款元宇宙概念的模拟经营类游戏,尽管游戏尚在研发中,这一消息已经让中青宝的股价在51个交易
Top