作者 |周亚 在资本市场,强烈的信号胜过千言万语。当地时间周一(10月27日),高通股价出现惊人上涨。盘中涨幅一度超过20%,最终上涨11%。让市场陷入疯狂的不是其底层的手机业务,而是期待已久的战略进攻和卷土重来。高通近日正式宣布推出面向数据中心的下一代人工智能推理优化解决方案:基于高通AI200和AI250芯片的加速卡和完整机架系统。我说“回归”是因为这并不是高通第一次进入数据中心市场。很多业内人士还记得,高通在2017年推出了Qualcomm Centriq 2400平台。这款48核ARM架构服务器芯片一度被视为挑战传统x86服务器市场的希望,而微软也是首批客户之一。然而,由于随之而来的市场竞争市场上,这个项目逐渐消失。到 2018 年底,高通大幅缩小了数据中心设备的规模,但这一努力最终未能大规模建立业务。七年后,高通再次采取行动。这一次,高通采取了与常规截然不同的玩法。我们不再走传统服务器芯片的道路,而是选择将几十年来在移动端建立并在数亿部手机上经过验证的低功耗、节能的 NPU(神经处理单元)设计放大并转移到数据中心的机架上。目标市场也从通用计算转向更具体的人工智能推理应用场景。高通技术公司高级实体副总裁兼技术规划、边缘解决方案和数据中心业务总经理杜尔加·马拉迪(Durga Maradi)在公开信息中做出了回应。 “通过高通的 AI200 和 AI250,我们正在重新定义什么是可以在机架级别进行人工智能推理。 Cha 解决方案使客户能够以行业领先的总拥有成本部署生成式 AI,同时满足现代数据中心的灵活性和安全性要求。我们拥有丰富的软件堆栈和开放的生态系统支持,使开发人员和企业能够基于我们优化的人工智能推理解决方案更轻松地集成、管理和扩展训练有素的人工智能模型。高通 AI200 和 AI250 建立在与领先人工智能框架无缝兼容的基础上,具有一键模型部署功能,旨在支持流畅的应用和高性能快速创新。 “这一声明揭示了高通进入数据中心市场的核心战略逻辑,即专注于优化能源效率和成本控制,这是长期致力于移动芯片领域的好处。高通的观点是,随着生成式人工智能从模型“训练”转向大规模“推理”应用,市场对总体拥有成本 (TCO) 和能源效率的关注度将继续提高,每瓦电力所提供的性能将成为一个日益重要的指标。这正是高通看到的市场机会,麦肯锡预计,到 2030 年,全球数据中心数量将需要近 6.7 万亿美元的资本投资,其中很大一部分将用于人工智能系统。根据国际能源署(IEA)的数据,2022 年,数据中心、人工智能和加密货币将占全球电力消耗的 2%。预计到 2026 年,仅数据中心能源需求就可超过1,000。太瓦时,相当于整个日本的用电量。在电力成本日益成为主要制约因素之际,高通正在寻求利用其“每瓦一美元”的性能优势,将自己定位于这一领域。的市场。此举背后的原因是高通持续推动业务多元化。其中一项收入来自专利许可。这是指高通针对3G/4G/5G标准必要专利向手机制造商收取的专利使用费。根据高通2025财年第三季度财报(截至2025年6月23日),季度营收为103.65亿美元,同比增长10%。其中,核心手机芯片业务销售额达63.28亿美元,同比增长7%。尽管它们仍然占据主导地位,但增长率相对稳定。相比之下,汽车芯片和物联网业务表现更为亮眼,分别实现了21%和24%的同比快速增长,销售额达到9.84亿美元和16.81亿美元。这方面也体现了高通“多元化”战略的有效性。数据中心现在是高通的下一个设计和目标ost 雄心勃勃的目标。策略要点 要了解高通的方法,我们必须首先阐明人工智能计算的两个核心方面:训练和推理。简而言之,培训就像教学生学习。创建和调整大型神经网络模型需要使用大量数据。这个过程需要非常高的计算能力,计算量大,并且不能被中断。 NVIDIA 凭借其 CUDA 生态系统和强大的 GPU 并行计算能力在该领域独树一帜。经过训练优化的 GPU 系统功耗可达数十千瓦,专为高强度计算场景而设计。目前,超过90%的AI训练市场份额由NVIDIA占据。推理就像学生学完后解决问题一样。这是指使用经过训练的模型来执行特定任务,例如响应聊天对话、生成图像或分析视频。推理任务的特点是高并发、低延迟cy,使他们对成本和能源消耗非常敏感。数以百万计甚至数百万个AI应用需要服务10亿用户时,每次推理的能耗和成本都会大幅增加。高通最近发布的AI200和AI250显然是针对“推理”市场。高通官方新闻稿强调:“这些解决方案提供机架级性能和卓越的内存容量,以每美元/瓦特的卓越性能实现快速生成式人工智能推理,标志着加速各行业可扩展、高效和灵活的生成式人工智能部署的重要里程碑。”换句话说,客户不会使用它们来训练下一个 GPT-5,而是将它们用于盈利和高效的目的。您可以自由运行现有的各种AI模型。这是一个非凡的市场地位。原因如下:首先,规模推理市场的规模持续增长。据一些业内人士分析,随着生成式人工智能模型从开发转向采用,预计到 2030 年,大部分计算需求将来自推理工作负载。事实上,一个模型一旦训练完成(比如大规模的语言模型),就可以服务数百万甚至数十亿的查询,而推理(模型使用)将是未来计算的主要消耗者。后者是随着用户采用而增加的持续扩展成本。事实上,就连英伟达首席执行官黄仁勋也曾指出,人工智能真正的突破是推理,而不是训练,并且推理的增长率将是“十亿倍”。一年后,他说:“那时候我还被低估了。”因此,这是一个更大、更多样化的战场。其次,推理市场对“总拥有成本”(TCO)更加敏感。 TCO 不仅包括硬件采购的前期资本支出 (CapEx),还包括长期运营支出 (OpEx),例如电力、冷却以及运营和维护。问高通声称整个机架消耗160千瓦的电力,旨在在能源效率和成本方面提供具有竞争力的性能。部署数千台服务器对于需要提高能源效率的云服务提供商来说,更好的能源效率意味着在整个生命周期中优化成本的更大范围。最后,推理市场的客户需求变得更加多样化,为不同的技术路径提供了发展空间。也许高通正试图利用这个窗口期,使用利润更高的解决方案来吸引那些正在寻找 Nvidia 替代品的客户,比如开始购买 OpenAI 等 AMD 芯片。但高通也面临着谷歌、亚马逊和微软等云巨头的挑战,这些巨头也瞄准了这个市场。它还正在开发自己的人工智能芯片。高通的策略是专注于“推理”这一应用场景更广泛、能效要求更高的细分市场。其主要竞争对手其活力在于其在手机芯片领域积累的技术优势。此举本质上是对当前趋势的押注。随着人工智能从实验室走向工业界,焦点从寻找“更快”的东西转向“更便宜”的东西,评估标准将会多样化。这不仅仅是技术路线的选择,更是深入理解不同应用场景的需求。让我们仔细看看这两款产品。高通表示,两款机架解决方案都支持直接水冷以提高散热效率,支持PCIe垂直扩展和以太网水平扩展,并具有保密计算功能以确保AI工作负载的安全。机架总功耗160千瓦。高通AI200和AI250可谓是Hexagon NPU(神经处理单元)技术在数据中心层面的“维度延伸”应用。移动设备上的高通 NPUe方于2007年推出第一款Hexagon DSP,但经过几十年的迭代,已经发展成为当今AI应用的核心引擎。另一方面,高通继续开发低功耗智能手机,因为功耗和散热是小空间内的关键问题。HemYou在功率芯片设计方面积累了丰富的经验。与主要用于渲染图形的 GPU 不同,NPU 是专门为执行神经网络操作而设计的处理器。通过增强矩阵乘法、卷积等常见AI计算单元的鲁棒性,我们以极低的功耗实现极高的AI计算效率。高通 Hexagon NPU 早已成为 Snapdragon 移动平台的标配,负责处理手机上的拍照、语音识别等 AI 任务。从技术角度来看,高通的NPU本质上是一种ASIC(应用专用集成电路),这在逻辑上与Nvidia的GPU(通用图形处理器)不同。 GPU 之所以变得流行,是因为它们用途广泛,而且其架构并行计算技术使它们能够高效地处理 AI 算法。另一方面,ASIC 是为特定任务(例如人工智能推理)而设计的。开发周期较长,但一旦量产,在算力密度、能效、成本等方面优势明显。高通将这一优势从手机延伸到了数据中心。高通目前正在致力于扩大这种能效优势,数十亿设备已证明这一优势,从毫瓦级手机场景到千瓦级机架场景。 AI200和AI250基于这一设计理念,针对推理工作负载进行了优化。从某些参数来看,AI200的优势之一是其768 GB LPDDR内存。我们知道内存容量是一个重要因素人工智能推理中的重要考虑因素。 l大型语言模型通常有数百亿甚至数万亿的参数,需要大量的内存。内存不足需要对模型进行分区,并在显存和主存之间频繁交换数据,从而显着增加延迟和功耗。高通 AI200 提供的解决方案中,每张卡均可支持高达 76GB 的 LPDDR 内存。作为参考,市场上不同的解决方案使用不同的内存配置策略,每种策略都有自己的做法。更重要的是内存类型的选择。 LPDDR 和 HBM 代表两种不同的设计权衡。更重要的是,高通选择了LPDDR(低功耗双倍数据速率)内存而不是HBM。 HBM提供非常高的带宽,适合需要大量数据的场景。另一方面,LPDDR是一种低功耗内存,广泛应用于智能手机并且利润丰厚。对于推理任务,一旦模型参数负载,访问模式相对固定,并且在某些情况下内存容量需求可能超过极端带宽需求。 AI200采用大容量LPDDR内存,可以在单卡上完全加载大型模型,减少卡对卡或服务器对服务器通信造成的延迟和功耗。这有助于产品定位优化TCO,并提供高性价比的大规模模型部署解决方案。另一项值得一提的技术是“近内存计算”。如果说AI200是基于成熟技术的优化组合,那么AI250则是探索更多前沿技术。架构方向。高通声称AI250采用了基于“备忘录计算”、“近内存计算”的创新内存架构。传统计算架构(冯·诺依曼架构)将计算单元和存储单元分开,数据必须在两者之间来回流动。这被称为“记忆墙”或“能量墙”,在人工智能计算中尤其值得注意因为数据处理的能耗超过了计算本身的能耗。 “近存计算”的中心思想是让一些计算功能尽可能靠近单元。存储,或者将它们集成到存储芯片中,使数据的目标是显着减少传输距离和功耗。高通声称,AI250中的这种架构“将有效内存带宽提高了10倍以上,并显着降低了功耗。因此,这两款产品专注于优化e.”推理场景中成本、功耗和内存容量之间的平衡。众所周知,在商业模式上,选择AI芯片不仅仅是选择硬件,更重要的是选择软件生态。我注意到高通的官方新闻稿中特别提到了“超大型AI软件堆栈”,涵盖从应用层到系统软件层。埃姆强调“开放”和“兼容”。该软件堆栈支持所有主要机器学习框架(PyTorch、TensorFlow 等)、推理引擎和生成式 AI 框架。更重要的是,您可以使用 Qualcomm AI Inference Suite 等工具单击一下即可部署 Hugging Face 模型库。这意味着开发人员可以将现有模型部署到高通硬件上,从而降低迁移成本和学习曲线。高通的战略是为开发者提供一个开放、友好的平台。对于想要保持供应链灵活性的客户来说,这是一个重要的考虑因素。然而,任何策略都必须经过实地测试。高通官方宣布的一个关键内容是与沙特阿拉伯人工智能公司HUMAIN的战略合作。根据该协议,HUMAIN将成为高通数据中心解决方案的发布合作伙伴。从2026年开始,HUMAIN将在全球部署功率容量高达200兆瓦的高通AI系统它为中东的企业和政府构建了数据中心和人工智能云平台。 200兆瓦是什么概念?典型的大型数据中心的功率输出为30至50兆瓦,HUMAIN的订单规模表明其足以支持多个大型AI数据中心的建设。 sauL选择贾拉比亚作为移动点,体现了高通的市场策略。沙特正在推动沙特2030愿景,大力投资发展数字经济和人工智能产业。作为一个快速发展的人工智能基础设施市场,沙特阿拉伯显然需要多元化的供应链。通过与HUMAIN这样的新兴市场客户合作,高通可以在相对开放的环境中快速建立应用案例和大规模部署经验。然而,验证这条路径显然需要一些时间。高通表示 AI200 和 AI250 的商业发布日期分别定于 2026 年和 2027 年y。在快速发展的AI硬件领域,三年的时间足以发生两个巨大的变化:多家厂商不断推新世代产品,技术和性能不断提升。例如,Nvidia 预览了其下一代 Rubin 平台。需要市场测试来确定高通是否能够保持其在产品发布时声称的 TCO 优势。而且,这个市场比以前更加激烈。在这个战场上,不仅有传统芯片厂商参与其中,谷歌(TPU)、亚马逊(Inferentia/Trainium)和微软(Maia)等云巨头也在开发本土芯片。两个参与者都是潜在客户,并且正在创建自己的解决方案。市场结构正在形成多元化趋势。最终,AI芯片竞争正在从一维的性能竞争,演变为针对不同应用场景、不同成本策略的多元化竞争。结构和不同的技术路径。高通选择从能源效率和成本优化的角度进入市场或推断,这是一个差异化的定位。特别有趣的是,在高通进攻数据中心市场的同时,英伟达也在加大对终端领域的投入。在今年刚刚结束的第二届GTC会议(在华盛顿举行)上,黄仁勋接受媒体采访时表示,在技术层面上,未来的AI必须“时刻待命”,并指出必须这样做。当你醒来的那一刻,你需要即时的互动和反应。但目前AI的延迟仍然太高,语音交互不够自然。 Nvidia 正在开发像 Grace Blackwell 这样的“超低延迟”人工智能。这些新架构可以提供更快的响应和更强大的计算能力。未来,每个人都可以使用人工智能设备,比如眼镜,这需要比今天强大得多的计算能力。 “因此,我们必须继续扩大我们的AI算力基础设施。”显然,市场永远不会排斥新进入者。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。