华为创新Flex:ai开源技术,AI计算效率提升30%,可同时使用GPU和NPU

机器之心报道编辑:泽南一举解决了计算资源浪费的问题。无论是 NVIDIA GPU 还是 Ascend NPU,您都可以“统一”它们并动态分割它们。 11月21日,华为正式推出“Flex:ai”AI容器技术。同时,华为宣布将联合上海交通大学、西安交通大学和厦门大学,向外部开放本次产学合作成果的源代码,帮助解决计算资源使用问题。华为副总裁、数据存储产品线负责人周跃峰博士在发布会上表示,当前AI产业的快速发展催生了对大规模算力的需求,但全球计算资源利用率低的问题也变得更加突出。 “计算资源浪费”已成为行业发展的一大限制。小型号任务独占整张卡,导致资源闲置。大型模型任务无法单机算力支撑,GPU/NPU 严重短缺。通用服务器甚至“休眠”其计算能力,因供需不匹配而造成严重的资源浪费。最近发布的开源XPU调度和集群软件Flex:ai基于Kubernetes容器编排平台。通过对GPU、NPU等智能计算资源的精细管理和智能调度,可以将AI工作负载与计算资源精准匹配,显着提高算力利用率。华为宣布将向“墨青社区”全面开放Flex:ai代码。该社区与开源的Nexent代理框架、DataMate数据工程和其他工具一起,将形成ModelEngine开源生态系统。报告根据,Flex:ai h深度融合上海交通大学、西安交通大学、厦门大学的科研能力,形成计算资源细分、一卡变多卡、支持多种AI工作负载三大核心技术突破。考虑到小型AI模型训练和推广场景中“一卡一任务”可能造成的资源浪费问题,华为与上海交通大学联合开发了可使用单GPU或NPU的XPU集群框架。算力卡信息化划分为多个虚拟算力单元,划分粒度精度为10%。该技术允许单卡同时运行多个AI工作负载,灵活的资源隔离技术可以实现计算单元的按需分割,“能用多少就用多少”。此类场景下整体算力利用率平均提升30%,提升服务效率单卡的可使用性。同时,虚拟化的性能损失控制在5%以内。聚合节点之间的计算资源,充分利用闲置算力。针对大量通用服务器因缺乏智能计算单元而无法处理AI工作负载的问题,华为与厦门大学联合开发了节点间远程虚拟化技术。该技术将集群中各个节点的闲置XPU算力聚合起来,形成“共享算力池”。另一方面,为算力要求较高的AI工作负载提供充足的资源支持。与此同时,即使是没有智能计算能力的基本服务器现在也可以通过高速网络传输人工智能工作负载。发送到远程“资源池”中的GPU/NPU算力卡执行,从而提供整体、智能的算力资源。据报道,厦门大学设计的上下文分离技术可以克服XPU的服务范围限制,集群外碎片减少74%,高质量作业性能提升67%。分层智能编程,实现AI工作负载与计算资源的精准匹配。面对多品牌、多规格的异构计算资源整合调度到计算集群的挑战,华为与西安交通大学联合开发了智能调度器Hi Scheduler。调度器自动检测集群负载和资源状态,结合AI工作负载优先级、算力需求等多维参数,对本地和远程虚拟化GPU和NPU资源进行全局优化调度,实现AI工作负载的时分资源复用。即使在负载频繁波动的场景下,也确保您的 AI 工作负载平稳运行,并且充分利用每一点计算能力。随着AI算力需求不断增长,资源管理效率正逐渐成为新的瓶颈。去年7月,英伟达以7亿美元完成了对以色列人工智能初创公司Run:ai的收购。这引起了业界的关注,并引发了关于如何利用未来计算能力的争论。 Run:ai技术的核心是通过动态编程、GPU池化、分片等方式优化AI计算资源的使用。据报道,他们的平台能够将 GPU 资源利用率从不到 25% 提高到 80% 以上。开源 Flex:ai 被视为对 Run:ai 等解决方案的积极回应。上海交通大学齐正伟教授表示:“Flex:ai的异构兼容性优于Run:ai,其开放架构将推动国家算力生态的标准化。”通过开放性和 codeFlex:ai 全面open igo,华为与各利益相关方希望汇聚全球创新力量,共同推动标准创建,将算力异构虚拟化与AI应用平台融合,形成标准化解决方案,高效利用算力。从“万卡组”到“一卡多用”,Flex:ai正在重新定义AI时代算力的使用方式。开源、开放进一步促进国产算力的大规模应用。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号社交媒体平台用户上传发布,仅供展示之用。信息存储服务。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注