硬氪独家专访 |商汤科技王小刚领导的团队从事新的实体智能业务,帮助机器人重新理解现实世界。

作者 |黄楠编辑|袁世凯 在人工智能行业,商汤科技是一家有11年历史的公司,多年来已经习惯了风风雨雨。在视觉人工智能不断发展的时代,它诞生于香港中文学院,为大规模实施打开了大门。然而,为B做生意并不是一件容易的事。大多数公司,包括商汤科技,都需要满足客户的长期定制开发需求。在 ChatGPT 出现之前,所有公司都同时专注于更大的模型。商汤科技在算力方面迈出了第一步,并看到了发展空间。根据商汤科技年报,2024年该公司产生的AI营收为24亿元,占比由2023年的34.8%增至63.7%,成为商汤科技最大的业务。然而,三年后,随着大型模型的快速发展,实际问题出现了。 “除了具体的进步特定场景下,AI如何才能真正走进物理世界,成为改变生产生活的实用工具?”这也是商汤科技每次技术迭代所追求的核心命题。最近,大小机器人的成立,正是在体现智能成为下一代AI革命的关键领域。商汤科技联合创始人兼CEO王小刚将出任大小机器人总裁,正式进军体现智能战场。王小刚告诉硬氪,大小机器人的初衷并不是追随“搞”或“展现复杂能力”的潮流,而是要回归现实问题,提出一种新的“以人为中心”的研究范式,专注于发展对物理世界规律的理解,最终产生适应现实场景需求的软硬件一体化产品,这也是一种行业趋势。去年智能行业还在探索移动稳定性和适用场景,但短短一年时间就放缓了。情况已经发生了很大的变化。嵌入式智能不再是风险投资家的专利:一些企业正在落地数亿元订单,进驻深圳、上海、苏州的机器人工厂车间。人工智能技术的演变正在从“数字智能”转向“物理智能”。追求这一目标的现有人工智能公司将发现自己正处于另一场重大转型之中。商汤科技2025年上半年净亏损11.62亿元,同比下降50%。研发投入也在不断增加,需要找到更现实的方向。通用智能的进步不在于AGI一步登天的幻想,而在于通过真实交互积累可重用的能力。机器人的最终价值在于不在于他们有多酷,而在于他们解决现实物理世界问题的能力。从视觉AI、大型模型到实体智能,商汤科技以大小机器人为支点,不仅要挖掘千亿级嵌入式智能市场,还要挖掘人工智能与物理世界深度交互的潜力。以下为硬氪与王小刚的对话实录。内容已编辑:硬氪不是一家纯粹的大脑合并公司:今年被普遍认为是具身智能落地元年。商汤科技为何在此时决定成立大小机器人并步入道成肉身之路?王小刚:主要基于两个方面的考虑:工业化的实现和技术范式。从产业化的角度来看,实体智能是一个万亿级的技术。赛道范围广泛,发展空间更大。作为NVIDIA创始人黄仁勋表示,未来每个人都能够拥有一个或多个机器人,其数量预计将超过手机的数量,而单个机器人的价值可与一辆汽车相媲美。商汤科技传统上专注于 To B 软件领域。如果您想通过软件和硬件的结合进一步扩展您的公司并改善您的业务,请考虑机器人技术。 Totruk 的垂直整合性质代表了一项重大进步。同时,团队根据以往在各个行业垂直领域的经验,了解用户的痛点和需求。与具体型企业对场景理解不足、难以解决实际问题相比,商汤科技的场景执行能力有望更有前景,产业化进程也将更加迅速。从技术范式来看,其发展存在明显弊端。传统的具身智能。尽管机器人硬件发展迅速,但“大脑”一侧的智能能力却相对匮乏。核心问题在于采用“以机器为中心”的技术路径。也就是说,我们首先设计形状和参数显着不同的不同类型的机器人本体,然后从本体收集数据。指导方针用于训练通用模型。这个想法并不适用。正如人类和动物在自然界中无法共享同一个大脑一样,也很难将具有不同结构的机器人(例如灵巧的手、抓手和机械臂的数量)拟合到统一的模型中。硬氪:大小机器人团队采用的技术方案有何不同?王小刚:我们提出的是一种新的“以人为中心”的技术范式。首先,我们研究人类与物理世界的相互作用和运动规律。我们使用多种工具,例如可穿戴设备和第三人称视角设备,结合视觉、触觉、机械数据等多维度数据,记录人类在生产和现实生活中的行为,特别是复杂的常识行为。通过将上述数据输入到世界模型中,模型可以深入理解物理世界的规律和人类行为的逻辑,构建强大的机器人“大脑”。同时,成熟的世界模型可以指导硬件设计,使硬件格式更适合实际应用的需要。今年8月至9月期间,特斯拉和Figure AI等公司宣布放弃物理路线,转向基于第一人称摄像头的视觉解决方案。但其本质只是通过视觉记录人类行为,并没有涵盖力、接触、摩擦等重要方面。然而,这些维度是体现智能和物理世界之间的三个维度。这是一个尺寸接触的基本要求。仅依靠视觉技术,机器人就可以进行舞蹈、拳击等模仿动作。然而,需要与物理世界交互的场景,例如移动瓶子或拧紧螺丝,不可避免地面临技术瓶颈。目前,大小机器人提出的以人为中心的范式正在实践中得到验证。此前,大小机器人高级教授刘子伟教授团队合作构建了EGO Life数据集,该数据集包含300小时第一视角和第三视角的真实人类行为数据。在此期间,基于该数据集开发的具身视觉模型将经过真实测试,能够有效解决现有数据多为简单无意义的动作,难以支持复杂运动学习的问题。大霄机器人团队成员:1排从左至右:李洪生、陶大成、王小刚、潘兴刚。第二个c专栏从左到右:陆建勤、赵恒双、刘子伟、刘喜辉(来源/公司) 硬氪:据公开数据显示,2024年中国嵌入式智能市场规模将突破8000亿元,近两年已有数百家初创公司进入嵌入式智能领域。在此背景下,大小机器人如何定义其行业生态位?王小刚:大小团队的最终目标不是做一家只做模型的公司,而是打造能够软硬件融合、针对性解决各种场景下的实际问题的产品。在此过程中,团队发现现有的硬件设计往往难以满足场景需求,于是团队开始联合研发、制造定制硬件。以机器狗产品为例。行业内传统的机器狗摄像头视角较窄,且安装位置较低,使其与难以准确确定十字路口的行驶方向并在过马路时捕获红绿灯。我们提供全景相机,提供360度全视角,解决视野有限的问题。我们与 Insta360 合作开发 Mela 模块。此外,目前很多机器狗还存在防水性能不足、算力平台成本较高、电池续航时间有限等问题,无法满足现实场景中正常使用的需求。硬氪:在联合开发的具体实施中,双方的合作模式是怎样的?王小刚先生:我们的优势在于大脑模型、导航功能和操作功能。此前,该公司有大型设备,在B端提供软件服务和基础功能,但在最终端并没有形成标准化的产品格式。大霄团队依托多家本体硬件及零部件公司商汤科技近两年投资,采用环境协作模式,提供硬件设计规范,与合作伙伴共同设计开发硬件本体。同时模型方保持开放态度,提供基础模型和材质解决方案。硬氪:商汤科技在安全、自动驾驶等领域积累了大量数据和技术。如果将这些资源转移延伸到嵌入式机器人领域,哪些核心能力可以直接复用?王小刚:基本能力有两个方面。首先是我们的研发体系和安全标准。无论是自主机器人还是体形机器人,都依赖大量数据来驱动技术迭代,累积研发体系、数据闭环、数据飞轮已被证明可以有效提升机器人技术的迭代效率。同时,严格安全自动驾驶领域的数据质量标准可应用于嵌入式机器人的研发,保证产品的可靠性。第二个是应用程序的功能。我们在智慧城市积累的方舟平台拥有上百种不同的应用能力。此前主要用于固定摄像场景。现在,通过将其与内置机器人连接,当设备走到户外时,您可以无缝使用该平台的后端分析功能。您可以迁移并扩展其功能边界。 “在一到两年内,我们将成为第一个扩大以人类为中心的机器狗的规模。”硬氪:回顾商汤科技11年的历程,我们见证并参与了从视觉AI大规模落地到如今实体智能爆发的完整转变。如何理解各阶段技术迭代的差异化路径及底层逻辑在他们后面?王小刚:商唐的发明发展史清楚地展示了人工智能技术从1.0到3.0的演变。 2014年公司成立时,正值以人脸识别为代表的AI 1.0时代,识别率达到了超越人眼的水平。那时的“智能”来自于人工标注,为图像添加标签,为原本没有智能属性的图像注入“认知特征”。但标签信息量少、关联性强等限制,要求针对每个任务分别标注相应的图像和视频,造成“有人工智能就有多少智能”的情况。受限于数据维度,当时的模型不仅规模较小,而且难以实现全场景、全行业的广泛应用。进入伟大2.0模式时代,形势已基本精神上改变了。关键的区别在于数据本身包含更多的智能。我们使用来自互联网的文本和图形数据。一首诗、一篇文章、一段代码,记录了人类几千年来积累的大量行为智慧,远远大于一个简单标签的智慧内容。大规模模型与这些数据相结合,可以提供智能上的爆炸性想法,这使得模型在不同场景和行业中具有很大的通用性。然而,互联网数据的价值正在逐渐“枯竭”,多功能性的边际效应正在逐渐放缓。随着我们进入实体智能3.0时代,我们将走向与物理世界的直接互动。 “世界”包含世界的物理定律和人类行为的逻辑。构建“模型”需要的不仅仅是研究文本和图形数据。进行真正的互动需要更深入地了解物理世界。瓦无论是打扫房间、提供服务还是其他特定场景,它们都包含复杂的实时智能。人工智能通过与世界的直接接触和互动,打破了现有数据的限制,创造了新的智能增长途径。硬氪:从趋势行业来看,嵌入式智能卡车的研发热情已经从去年的重点关注“实体大脑”转向如今对“小脑”操控能力的探索。这种方向转变背后的根本原因是什么?王小刚:我认为最主要的原因是我们的研究范式仍然以机器为中心。根据这种范式,机器之间的交互与底层硬件密切相关,因此自然地发展为行为控制或小脑。然而,由于每个机器人本体收集的数据都不同,不可能形成通用、统一的大脑。其次,它不能生成复杂的活动。依赖真实机器控制来收集数据的传统模型有明显的局限性。它只能生成举升、移动、放置等简单动作的数据,需要10多秒才能完成。然而,他们无法完成需要长时间驾驶的复杂任务,例如打扫房间或提供服务。这也支持了我们以人为本的提议:需要通过环境收集来训练全球模型。硬氪:大小机器人提出的“启蒙”3.0(Kairos 3.0)世界模型与现有世界模型相比,底层逻辑有何不同?物质世界的幻象问题将如何解决?王小刚:我们构建的世界模型与World Labs团队提出的Sora和李飞飞的大理石不同。这与基于合成数据的现有模型不同,例如Enlightenment 3.0具有“多模式”,它使用三步架构师ure:“无聊的理解融合→合成网络→行为预测”。其模型集成了以相机为中心的多模态理解和生成,支持空间想象,并支持灵活的跨视角应用,例如世界探索(Source/Enterprise)。我们的模型分为三个部分。第一部分是多模态理解与融合。虽然现有模型主要依靠图像、视频和文本描述作为输入,但我们的输入系统更丰富,涵盖图像、视频、相机姿势、目标的 3D 轨迹和机制等多模态信息。触觉,使我们的模型能够更深入地了解物理世界。例如,在大校和南洋科技的合作中,模型可以从单张照片逆推相机姿态。一旦机械臂的手腕相机捕捉到图像,就可以准确确定机械臂的位置和轨迹。机械臂运动AI可以根据图像的变化进行逆向估计,提供对物理世界中交互逻辑的深入理解。第二个是综合网络。基于第一步的理解和融合,启蒙世界模型3.0可以合成各种视频,包括允许您选择不同类型的机器人来执行任务的合成。三是预测。模型收到指令后,会预测机械臂接下来如何移动,从而指导机器人的动作。这使得模型能够模拟动态场景,隔离动态目标,并灵活替换场景中的不同元素,例如换瓶子、换手机、换桌子,甚至换房间类型。这些都是现有全球模型无法实现的。它涵盖了从“认知、模拟”到“实际执行”的一切,构成了从理解到操作的完全闭环。硬氪:究竟如何这种“以人为本”的范式是否解决了行业在提高数据效率、突破跨场景泛化能力、实现多模态融合等方面的主要瓶颈?王小刚:具体来说,是“环境收藏+世界模式”的组合模式。这里的“环境”特指人类赖以生存的生活方式和生产场景。 “世界模型”还关注人类与周围环境的互动,而不是自动驾驶汽车关注的道路或水下场景等特定区域。以人为中心的好处是数据收集高效,所有数据都来自真实场景。同时,除了视觉数据之外,它还集成了机械、触觉等多维信息。人类多年来积累的人体工程学成果也可以在此基础上应用。这是RA的先决条件pid 增长,这是传统以机器为中心的研究路径所不具备的。硬氪:自动驾驶领域的技术范式确立后,以人为本需要多长时间才能实现爆发式的价值增长?王小刚:短期内,以人为中心的四足机器人(机器狗)将率先实现规模化应用。目前行业内的机器狗普遍受限于自主导航能力和空间智能能力。它们主要依靠手动远程控制或固定路线操作,这严重限制了它们的能力和应用场景。大霄队的计划,就是这场比赛能够超越的极限。一方面,它搭载了大小机器人的自主导航技术。通过机器管理平台实现多机协同调度,接收百度地图的导航指令并执行自主执行任务。它还支持灵活的交互方式,例如语言和大型多模态模型。例如,可以根据指示识别特定人群,提供帮助或拍摄非法车辆的车牌。而机器狗则与商汤方舟视觉平台有着深厚的联系。利用方舟的视频分析、目标检测、异常事件处理能力,识别场景中的打架斗殴、垃圾堆积、宠物散养、非法无人机等问题,并将数据实时发送至后台。这种“自主导航+智能场景识别”的“感知”与云管理平台的结合,可以显着拓展巡检等应用。一两年之内,我们将看到机器人进入各种工业环境。硬氪:实体智能的商业化遵循循序渐进的逻辑。中长期来看,还有哪些场景值得关注吗?王小刚:从中期来看,商业服务场景中的初期仓储物流将成为规模推进的一个点。与工业场景中生产线之间复制的难度相比,前端仓储物流的需求非常一致。随着网购的普及,不同地点的限时抢购仓库的分拣、包装等自动化要求日趋标准化。目前行业面临的挑战是,前端仓库有数以万计的SKU,依靠物理机器收集数据的传统模式很难填补。我们通过环境采集积累的大量数据可以有效训练通用模型,实现仓库之间的快速复制,满足行业大规模部署的核心需求。从长远来看,家庭场景是重要的直接嵌入式智能,但部署周期相对较长,安全问题是主要挑战。机器人进入家庭后,需要解决多重风险,例如避免碰撞和财产安全。这与L2到L4自动驾驶中的责任界定和安全保障问题类似。不过,目前业界正在积极探索这一点。例如,图AI基于视觉路径进行环境采集,与数百万房型地产基金合作,积累家居场景下的人类行为数据,逐步实现对场景的完全渗透。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由社交媒体网易号用户上传发布仅提供信息存储服务的平台。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注