文字|富崇编辑|苏建勋:“如果给你们公司100亿元来推动体现智能的发展,你们会怎么花这笔钱?”在11月20日举行的2025智源体现开放日圆桌论坛上,主持人提出了一个开放性问题。面临这一问题的嘉宾来自国内具身行业的8家顶级企业机构:致远研究院院长、致远机器人合伙人王忠远、首席科学家罗建兰、北京大学助理教授、星河将军创始人王鹤、清华大学跨信息学院助理教授、赵星海图联合创始人程浩、加速进化创始人兼CEO、自变量创始人兼CEO王招商局集团首席人工智能科学家钱先生、中国科学院大学教授张家兴、赵东斌,“我觉得不到10块钱”。程浩,ac创始人兼CEO加速进化,微笑回应,观众们也爆发出默契的笑声。 “如果只有100亿,我会找很多朋友来推动具身产业,比如投资致远研究院。”致远机器人合伙人罗建兰表示,有可能用这笔钱解决目前的数据瓶颈:“我要打造一个全球最大的自保、自闭环的数据飞轮。100亿可以说很多,也可以说不多,但第一个做到100亿的人和机构还不存在。还讨论了世界模型等业界关注的话题,以及对当前数据飞轮的思考和改进思路。” VLA核心范式也得到转发,圆桌论坛设置了一个有趣的“举牌表达立场”环节:观众必须通过举牌1、2、3来表达同意、中立或不同意。从举牌的结果来看,即使在国内领先的从业者中,不考虑的情况仍然存在。最明显的区别是“缺乏数据”问题的解决方案。星海图联合创始人赵兴、招商局集团首席人工智能科学家张家兴倡导真实数据在物理世界中的重要性;银河通用创始人王河强调,合成数据将在难以收集真实数据的领域发挥重要作用。自变量创始人兼CEO王前认为,可以使用融合数据,但要根据不同的任务选择合适的数据源。如何选择和组合数据,实现量变到质变的跨越?不同的答案反映了每个企业家的“首要原则”和战略重点。以下是《智能涌现》从论坛精选的精彩内容。对话作者整理:△2025支元具身开放日“具身模型客厅”圆桌论坛,来源:致远研究院 主持人:您认为世界模型会成为具身智能的核心技术吗?王贺(赞同):我只能说这取决于世界模型的定义。经过Sora等一系列视频生成模型的处理后,强化学习中世界模型的原始定义已经变得越来越模糊。当前的一个关键想法是让机器人通过人类行为的视频来学习。但这里有一个重大问题:机器人的身体结构与人类有很大不同——无论是轮式底盘还是手臂,它们的灵巧度和运动空间都与人类不同。因此,即使模型能够生成真实的人体动作,此类数据对机器人的实际帮助也有限。然而,展望未来,预测能力将成为实体智能不可或缺的一部分。机器人必须推理 a就像人类一样,根据未来的目标制定当前要执行的行动并计划行动。所以结论是:以世界模型为代表的预测能力是主要的,但它的训练数据必须来自机器人本身。只有拥有大量的机器人数据,才能训练出真正适合机器人的有效世界模型。王中原(同意):世界模型对于具身智能固然有用,但不一定是具身智能的必要基础。我们理解的世界模型不仅仅是视频的生成。当视频生成时,下一帧也随之生成,但人们真正需要的是一个能够根据之前的时空状态预测下一个时空状态的世界模型。比如我今天要回答的时候,我必须根据主持人的问题,可能根据他正在回答的王老师来调整我的答案,并做出拿麦克风的决定。主持人:在通用大型模型领域,像Transformer这样的统一架构随着ChatGPT的爆发而兴起。然而,智能的具体模型并没有进入“一大模型一统天下”的局面。目前有分层的体现大模型、端到端的VLA、世界模型等。您认为体现智能模型最终会收敛到一个统一架构主导的吗?张家兴(中立):我认为具身智能想要走向明天,水平模型不能走过去三年从LLM到VLM的路子。具身智能需要一个自己的架构。就像人类智能一样,它首先发展运动,然后发展视觉,最后发展语言。 VLA结构是一种夹在愿景和行动之间的语言。事实上,这与我们作为真人的运作本质不符。例如,当我们开车时,我们可以说“聊天”、“听东西”、“同时观察路况”时间。 (驾驶本身不涉及语言)这说明视觉和行动是有联系的,语言不一定参与。如今,一些领先的团队,尤其是硅谷的团队,正在研究新的多模式大型模型架构。在这种架构下,语言优先的原始状态可以是愿景优先,也可以是愿景行动优先。这是一个值得期待的突破。赵星(同意):我非常同意,我们需要一个与大语言模型并行的基础模型。这个基础模型更有可能是一个大的动作模型,而这个大的动作模型依赖于视觉,因为视觉是世界上最常见的传感器信息。对此,添加一种语言。这就是生物进化的规律。这个世界上首先出现了可以移动的动物,然后有了视觉,最后出现了人类这样的高智慧生物。然后我再告诉你一件事,我认为e和e之间有一个特殊的区别实体化模型和大语言模型,也就是我希望它是一个闭环模型。大语言模型更像是一个开环模型。换句话说,大语言模型是一个问题和一个答案:你在问题中说出它,然后给出答案。这中间,会有一些思路。如果答案正确,则完成。但具身智能则不同。具身智能不会经过一系列的思考然后采取行动。相反,在采取行动之后,我立即得到世界的反馈,然后立即调整自己的行动,然后再采取下一步行动。罗建兰(同意):我认为体现智能最终会通过一个集成系统来解决,包括VLA、World Model和强化学习,而不是依赖于单一模型。我在这里解释一下。我很同意张家兴今天说的话。目前的VLA可能不是最终的范式,但我认为它仍然会有未来的愿景、语言、和行动。也就是说,VLA的大势是正确的,但可能不是今天的样子,所以我还是用VLA这个词。同时,它还需要有一个能够在潜在空间中反思、预测、进行想象的世界模型。当然,在这个系统中强化学习也是必要的。这些元素结合起来后,与现实世界的数据飞轮一起,体现智能可以不断改变自己,不断学习。王中原(同意):首先,致远研究院确实认为,从最终状态来看,应该有一个相对统一的架构模型来解决体现智能的各种问题。这也是我们提出多模态世界模型的一个非常重要的原因。当然,这个需要的数据量显然是巨大的,巨大的,我认为三五年之内不可能完全出现。体现得更好的大型模型可能不会出现在你的面前直到大量机器人解决现实场景中的具体问题,积累“具身智能互联网”层面的数据。王鹤(同意):我认为从架构的角度来看,我们今天谈论的Transformer作为一种跨模态的注意力机制是通用的。例如,您发现它可以处理文本模式、视频模式和声音模式。然而,今天的象征主义的问题是,人们有眼睛、耳朵、嘴巴、鼻子、舌头和如此多的“感觉”。虽然从注意力的角度来看,这些“感受”可以被标记化后放入变压器中,但其输出似乎不正确。所以如果我们慢慢解决这些问题,我想我们未来在架构方面可以有一个非常统一的范式。但我认为目前的长期挑战是数据。我同意钟原博士的说法。现在,如果是视频生成模型或者对话模型的话,这些本质上都是海量的大数据互联网。所以现在要我们开发一个第一个行动模型。问题是世界上的人形机器人居民很少。如此小的数量不足以探索行动优先的架构和模型。所以我的观点是,短期内我们必须依靠合成数据来探索这个方向,这比使用真实数据更快。先用这种方法增加具身智能的能力点,然后它的种群才能增长,然后才能诞生一个真正强大的大型模型。程浩(同意):因为我们有很多操作控制,所以我们更多地从机器人操作控制的角度来思考体现智能模型。我们希望有一个体现模型,可以根据需求和环境随时输出接下来100帧的动作。我们想一下,这可能是一个机器人运动的动画。当这个模型投入使用时,完整的体现智能变得非常容易实现。为什么我们要关注o 世界模型?因为这里很重要的一点是,世界模型可以预测接下来会发生什么,这不仅包括机器人本体想要做什么,还包括这个事件会发生什么。比如做饭是一件非常困难的事情,但是你可以用一些分层的方法让机器人先落地:先选择一个快递员,选择一个盒子,这些都是相当简单的事情。然而,这确实很难,距离实现还很远。所以我们中的一些人认为我们可以先使用一些分层的方法,先构建一些代理,然后先实现它。正如王先生今天所说,一旦推出,机器人公民的数量肯定会增加。因为一旦实施就会创造价值,然后每个人都会有动力、金钱和意愿去建造更多的机器人公民并收集更多的数据。那么当这个数据回来的时候,我想它会带回体现大模型整个模型的发展。王茜(同意):我认为问题中的变压器一词有点误导。现在,即使有了语言模型,我们也不一定使用转换器架构。当然,我理解这个问题是在讨论我们当时是否会有一套完整的类似GPT的基础模型。从这一点来看,我认为它仍然存在。我们可以从语言模型中学到两件特别重要的事情。首先,数据很重要,但不仅仅是“更好、更好”。在语言模型时代,我们看到简单的坐姿数据大小可能并不能带来最好的结果。高质量、高效的数据是决定性因素。因此,虽然我们也做合成数据,但我们仍然关注来自物理世界的真实数据,因为我们相信,在具体情况下,数据的质量可以拉开比数据总价值大一个数量级的差距。二是制作基础模型。我认为应该有一个基本模型物理世界与虚拟世界平行或独立。原因是虚拟世界和物理世界的特点有很大不同。物理世界中的摩擦、接触、碰撞等精细物理过程很难用语言或传统的合成数据来准确描述。所以最终我们需要的是一个直接从物理世界学习的基本模型,一个可以描述所有详细而复杂的物理过程的模型。它必须既控制机器人又是世界的模型。因此,在我们的实践中,世界模型和VLA概念并不是相互排斥的:同一个模型可以输出相同的动作和视频等。我们将其作为一个整体视为“物理世界的主要模型”。至于为什么需要通用模型,原因是通用模型学习的是任务中的通用结构,即某种“常识”或“本质规律”。象征性地,它可能是牛顿定律,对象属性、语言这是逻辑和常识。相反,我认为,最终我们应该继承现在的多模态模型,并将其作为体现模型的基础和基础;但在5到10年内,源自实施例的多模态模型可能会占据主导地位。换句话说,我们使用在物理世界中收集的数据构建的多模态模型可能会破坏当今基于虚拟世界数据的多模态模型。这确实符合人类的认知:我们生活中暴露的多模态数据比互联网的规模还要小,但它可以建立对世界的强大理解。主要原因之一是具身智能可以完成交互感知和行动的主动感知,更好地理解物理世界在时间和因果维度上的规律。 △现场举牌的嘉宾对具身智力问题表现出不同意见。资料来源:致远研究院。主持人:很多嘉宾只是强调了数据的重要性。现在您能用一两句话介绍一下你们采取了什么样的策略来应对数据瓶颈的问题吗?张家兴:我们的数据理念是,第一,相信从真实物理世界收集的数据。这句话王倩已经说过很多次了。其次,在整个数字金字塔中,我们更关注以人本身为本体收集的数据。这是成本最低、最实惠的数据,主要用于预训练。赵兴:我们也是基于真实的数据。然后是三个入口点。第一个切入点是真实性和质量。所以我们从真实机器人的数据收集开始。第二个重点是多样性。相比数据挖掘工厂,我们去更真实的场景去做数据挖掘。那么第三个方面,注重数量。扩大征收规模,降低征收成本。罗建兰:我们也坚持真实数据,也非常重视对数据质量的影响。我认为我们要强调两点。首先,赵星老师今天也说了,真实的数据应该在真实的场景中采集,而不仅仅是在数据采集工厂里采集。另外我想说的是,我认为未来整个数据飞轮的构建仍然是利用机器人自主生成数据。它不仅仅是远程操作,而是在真实场景中部署大量的机器人,然后机器人与环境进行交互,创建非常广泛且非常多样化的数据。王中原:我们还是坚持从视频数据中学习基础模型。因为正如今天提到的,视频数据是我们可以大量捕获并同时模拟现实世界的数据。然后对真机收集的数据进行处理,然后通过强化学习提供反馈,不断提高模型的能力。这套逻辑其实和ho是一样的当今孩子们使用手机了解世界:首先通过视频了解世界,然后通过真实的互动体验提高技能。这也符合第一性原理。王鹤:可能对这里的人来说,我强调的是模拟太多了。我们并不打算复制我们在现实世界中可能收集的数据,但我们发现很多底层控制都是通过大量的强化学习来学习的,而在现实世界中很难做到这样的强化学习。例如,我们今天看到的所有人形行走和舞蹈,包括各种复杂的身体控制,都是通过模拟器学习的。我们最近看到的趋势来自于我们与清华大学合作的灵巧手项目。直到今天,所有令人惊叹的手动执行任务都是通过模拟器学习的,而不是通过远程操作。因为你可以看到,当你远程控制一只触摸的手时,你不知道手的手指是否触碰,是否被卡住,以及接受的力量有多大。操作起来非常困难。所以我的观点是,模拟器并不意味着我们否定现实世界,而是这些丰富的物理交互,从模拟器开始,给了我们一个很好的基础控制器,它让我们能够在现实世界中转动数据飞轮。我认为这就是合成数据的使命。程浩:我们现在其实用的是模拟数据,因为用模拟数据更快。但我们目前使用模拟数据进行训练的目标实际上是快速实现体现智能,并在实现后获得大量真实数据。或许拿到真实数据后,整体能力会提升,你可能会发现有些情况下真实数据的成本太高,以后可以开始使用大量的模拟数据。我认为这可能是一个螺旋式上升的过程。最后,视频数据无疑是最丰富的t,但如今视频数据在实践中通常不是很有效。但我认为从历史的角度来看,这个问题一定是有解决办法的。因此,我们认为最终的解决方案很可能是数据融合。在任何阶段,哪个数据更容易使用,将首先使用。王倩:我们使用各种各样的数据,但可能有一个重点是我们使用它的地方。正如我刚才所说,不同的数据分布是不同的。例如,我们也使用互联网上的大量数据。基本上,我们抓取的是互联网上所有可以抓取到的数据。主要用于预训练和学习一般意义。我们也进行模拟,但我们不能将其用于接触和触及等操作。我们只能用它来导航和规划。该操作很大程度上可以基于这个物理世界的真实数据。赵冬斌:我觉得自动驾驶也应该是一个非常重要的体现例子。自动驾驶已经取得成果。从经验来看自动驾驶,它把汽车卖给消费端的用户,然后每个司机每天在路上行驶时返回数据。当我们的机器人可以在现实场景中出售或租赁并在工作时收集数据时,数据量将增加得更快。主持人:那么各位嘉宾可以用一句话解释一下您做决定时的首要原则是什么?张家兴:我相信图灵奖得主去年说的一句话:让机器发现自己,让机器探索。赵兴:我们刚建立星海图的时候,有一句话是“我们相信缩放法则”。也就是说,我们仍然相信数据规模可以逆转我们模型的演变和智能的实现。罗建兰:我认为我们必须做艰难但正确的事情。我们必须着眼长远。很多事情在短期来看是一种负担,但从长远来看却会创造巨大的价值。王贺:银河环球致力于扭转数据飞轮。甚至如果我们不做别人认为最酷的事情。程浩:做决策的时候,我们会关注是否能够落地,某个方向对于落地是否有用。王谦:我们的标准是能否在较长时期内为客户和消费者创造真正的价值。赵东斌:从研究的角度来说,智能驾驶和体现智能都会有交互支持。主持人:具身智能很有趣,但也很昂贵。一个简单的问题,如果给你的公司100亿元人民币来推动体现智能的发展,你会怎么花这笔钱?王倩:我觉得首先应该把所有能吸引到这个市场的优秀人才都吸引过来。第二,一定是计算能力和数据资源。程浩:首先我觉得100亿是不够的(笑)。那么如果我只有100亿,我应该找很多朋友来推动embodime的产业化nt。例如,投资致远研究院,吸引了来自世界各地的研究人才,集中精力在技术上做出相对长期的突破。王鹤:我觉得100亿确实不重要。重要的是你如何利用你的职业生涯和你定义的发展来吸引人才加入。我们每天打开大家的眼睛并不是为了钱,而是为了一个人类和机器人共存的未来世界。我也认为这10亿美元会用来支持致远研究院。罗建兰:我想我会造一个世界上最大的自旋转、封闭式数据飞轮。 100亿可以说是很多钱,也可以说是更少,但是第一个用100亿来做的人和机构还不存在。赵兴:我还想建立一个最大的数据库,可以将物理世界的所有信息数字化。张家兴:我希望能够设计一个我们身体智能的基础模型,以及然后做大规模的预训练,这样我们就可以衡量它。
特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本站仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。
文字|富崇编辑|苏建勋:“如果给你们公司100亿元来推动体现智能的发展,你们会怎么花这笔钱?”在11月20日举行的2025智源体现开放日圆桌论坛上,主持人提出了一个开放性问题。面临这一问题的嘉宾来自国内具身行业的8家顶级企业机构:致远研究院院长、致远机器人合伙人王忠远、首席科学家罗建兰、北京大学助理教授、星河将军创始人王鹤、清华大学跨信息学院助理教授、赵星海图联合创始人程浩、加速进化创始人兼CEO、自变量创始人兼CEO王招商局集团首席人工智能科学家钱先生、中国科学院大学教授张家兴、赵东斌,“我觉得不到10块钱”。程浩,ac创始人兼CEO加速进化,微笑回应,观众们也爆发出默契的笑声。 “如果只有100亿,我会找很多朋友来推动具身产业,比如投资致远研究院。”致远机器人合伙人罗建兰表示,有可能用这笔钱解决目前的数据瓶颈:“我要打造一个全球最大的自保、自闭环的数据飞轮。100亿可以说很多,也可以说不多,但第一个做到100亿的人和机构还不存在。还讨论了世界模型等业界关注的话题,以及对当前数据飞轮的思考和改进思路。” VLA核心范式也得到转发,圆桌论坛设置了一个有趣的“举牌表达立场”环节:观众必须通过举牌1、2、3来表达同意、中立或不同意。从举牌的结果来看,即使在国内领先的从业者中,不考虑的情况仍然存在。最明显的区别是“缺乏数据”问题的解决方案。星海图联合创始人赵兴、招商局集团首席人工智能科学家张家兴倡导真实数据在物理世界中的重要性;银河通用创始人王河强调,合成数据将在难以收集真实数据的领域发挥重要作用。自变量创始人兼CEO王前认为,可以使用融合数据,但要根据不同的任务选择合适的数据源。如何选择和组合数据,实现量变到质变的跨越?不同的答案反映了每个企业家的“首要原则”和战略重点。以下是《智能涌现》从论坛精选的精彩内容。对话作者整理:△2025支元具身开放日“具身模型客厅”圆桌论坛,来源:致远研究院 主持人:您认为世界模型会成为具身智能的核心技术吗?王贺(赞同):我只能说这取决于世界模型的定义。经过Sora等一系列视频生成模型的处理后,强化学习中世界模型的原始定义已经变得越来越模糊。当前的一个关键想法是让机器人通过人类行为的视频来学习。但这里有一个重大问题:机器人的身体结构与人类有很大不同——无论是轮式底盘还是手臂,它们的灵巧度和运动空间都与人类不同。因此,即使模型能够生成真实的人体动作,此类数据对机器人的实际帮助也有限。然而,展望未来,预测能力将成为实体智能不可或缺的一部分。机器人必须推理 a就像人类一样,根据未来的目标制定当前要执行的行动并计划行动。所以结论是:以世界模型为代表的预测能力是主要的,但它的训练数据必须来自机器人本身。只有拥有大量的机器人数据,才能训练出真正适合机器人的有效世界模型。王中原(同意):世界模型对于具身智能固然有用,但不一定是具身智能的必要基础。我们理解的世界模型不仅仅是视频的生成。当视频生成时,下一帧也随之生成,但人们真正需要的是一个能够根据之前的时空状态预测下一个时空状态的世界模型。比如我今天要回答的时候,我必须根据主持人的问题,可能根据他正在回答的王老师来调整我的答案,并做出拿麦克风的决定。主持人:在通用大型模型领域,像Transformer这样的统一架构随着ChatGPT的爆发而兴起。然而,智能的具体模型并没有进入“一大模型一统天下”的局面。目前有分层的体现大模型、端到端的VLA、世界模型等。您认为体现智能模型最终会收敛到一个统一架构主导的吗?张家兴(中立):我认为具身智能想要走向明天,水平模型不能走过去三年从LLM到VLM的路子。具身智能需要一个自己的架构。就像人类智能一样,它首先发展运动,然后发展视觉,最后发展语言。 VLA结构是一种夹在愿景和行动之间的语言。事实上,这与我们作为真人的运作本质不符。例如,当我们开车时,我们可以说“聊天”、“听东西”、“同时观察路况”时间。 (驾驶本身不涉及语言)这说明视觉和行动是有联系的,语言不一定参与。如今,一些领先的团队,尤其是硅谷的团队,正在研究新的多模式大型模型架构。在这种架构下,语言优先的原始状态可以是愿景优先,也可以是愿景行动优先。这是一个值得期待的突破。赵星(同意):我非常同意,我们需要一个与大语言模型并行的基础模型。这个基础模型更有可能是一个大的动作模型,而这个大的动作模型依赖于视觉,因为视觉是世界上最常见的传感器信息。对此,添加一种语言。这就是生物进化的规律。这个世界上首先出现了可以移动的动物,然后有了视觉,最后出现了人类这样的高智慧生物。然后我再告诉你一件事,我认为e和e之间有一个特殊的区别实体化模型和大语言模型,也就是我希望它是一个闭环模型。大语言模型更像是一个开环模型。换句话说,大语言模型是一个问题和一个答案:你在问题中说出它,然后给出答案。这中间,会有一些思路。如果答案正确,则完成。但具身智能则不同。具身智能不会经过一系列的思考然后采取行动。相反,在采取行动之后,我立即得到世界的反馈,然后立即调整自己的行动,然后再采取下一步行动。罗建兰(同意):我认为体现智能最终会通过一个集成系统来解决,包括VLA、World Model和强化学习,而不是依赖于单一模型。我在这里解释一下。我很同意张家兴今天说的话。目前的VLA可能不是最终的范式,但我认为它仍然会有未来的愿景、语言、和行动。也就是说,VLA的大势是正确的,但可能不是今天的样子,所以我还是用VLA这个词。同时,它还需要有一个能够在潜在空间中反思、预测、进行想象的世界模型。当然,在这个系统中强化学习也是必要的。这些元素结合起来后,与现实世界的数据飞轮一起,体现智能可以不断改变自己,不断学习。王中原(同意):首先,致远研究院确实认为,从最终状态来看,应该有一个相对统一的架构模型来解决体现智能的各种问题。这也是我们提出多模态世界模型的一个非常重要的原因。当然,这个需要的数据量显然是巨大的,巨大的,我认为三五年之内不可能完全出现。体现得更好的大型模型可能不会出现在你的面前直到大量机器人解决现实场景中的具体问题,积累“具身智能互联网”层面的数据。王鹤(同意):我认为从架构的角度来看,我们今天谈论的Transformer作为一种跨模态的注意力机制是通用的。例如,您发现它可以处理文本模式、视频模式和声音模式。然而,今天的象征主义的问题是,人们有眼睛、耳朵、嘴巴、鼻子、舌头和如此多的“感觉”。虽然从注意力的角度来看,这些“感受”可以被标记化后放入变压器中,但其输出似乎不正确。所以如果我们慢慢解决这些问题,我想我们未来在架构方面可以有一个非常统一的范式。但我认为目前的长期挑战是数据。我同意钟原博士的说法。现在,如果是视频生成模型或者对话模型的话,这些本质上都是海量的大数据互联网。所以现在要我们开发一个第一个行动模型。问题是世界上的人形机器人居民很少。如此小的数量不足以探索行动优先的架构和模型。所以我的观点是,短期内我们必须依靠合成数据来探索这个方向,这比使用真实数据更快。先用这种方法增加具身智能的能力点,然后它的种群才能增长,然后才能诞生一个真正强大的大型模型。程浩(同意):因为我们有很多操作控制,所以我们更多地从机器人操作控制的角度来思考体现智能模型。我们希望有一个体现模型,可以根据需求和环境随时输出接下来100帧的动作。我们想一下,这可能是一个机器人运动的动画。当这个模型投入使用时,完整的体现智能变得非常容易实现。为什么我们要关注o 世界模型?因为这里很重要的一点是,世界模型可以预测接下来会发生什么,这不仅包括机器人本体想要做什么,还包括这个事件会发生什么。比如做饭是一件非常困难的事情,但是你可以用一些分层的方法让机器人先落地:先选择一个快递员,选择一个盒子,这些都是相当简单的事情。然而,这确实很难,距离实现还很远。所以我们中的一些人认为我们可以先使用一些分层的方法,先构建一些代理,然后先实现它。正如王先生今天所说,一旦推出,机器人公民的数量肯定会增加。因为一旦实施就会创造价值,然后每个人都会有动力、金钱和意愿去建造更多的机器人公民并收集更多的数据。那么当这个数据回来的时候,我想它会带回体现大模型整个模型的发展。王茜(同意):我认为问题中的变压器一词有点误导。现在,即使有了语言模型,我们也不一定使用转换器架构。当然,我理解这个问题是在讨论我们当时是否会有一套完整的类似GPT的基础模型。从这一点来看,我认为它仍然存在。我们可以从语言模型中学到两件特别重要的事情。首先,数据很重要,但不仅仅是“更好、更好”。在语言模型时代,我们看到简单的坐姿数据大小可能并不能带来最好的结果。高质量、高效的数据是决定性因素。因此,虽然我们也做合成数据,但我们仍然关注来自物理世界的真实数据,因为我们相信,在具体情况下,数据的质量可以拉开比数据总价值大一个数量级的差距。二是制作基础模型。我认为应该有一个基本模型物理世界与虚拟世界平行或独立。原因是虚拟世界和物理世界的特点有很大不同。物理世界中的摩擦、接触、碰撞等精细物理过程很难用语言或传统的合成数据来准确描述。所以最终我们需要的是一个直接从物理世界学习的基本模型,一个可以描述所有详细而复杂的物理过程的模型。它必须既控制机器人又是世界的模型。因此,在我们的实践中,世界模型和VLA概念并不是相互排斥的:同一个模型可以输出相同的动作和视频等。我们将其作为一个整体视为“物理世界的主要模型”。至于为什么需要通用模型,原因是通用模型学习的是任务中的通用结构,即某种“常识”或“本质规律”。象征性地,它可能是牛顿定律,对象属性、语言这是逻辑和常识。相反,我认为,最终我们应该继承现在的多模态模型,并将其作为体现模型的基础和基础;但在5到10年内,源自实施例的多模态模型可能会占据主导地位。换句话说,我们使用在物理世界中收集的数据构建的多模态模型可能会破坏当今基于虚拟世界数据的多模态模型。这确实符合人类的认知:我们生活中暴露的多模态数据比互联网的规模还要小,但它可以建立对世界的强大理解。主要原因之一是具身智能可以完成交互感知和行动的主动感知,更好地理解物理世界在时间和因果维度上的规律。 △现场举牌的嘉宾对具身智力问题表现出不同意见。资料来源:致远研究院。主持人:很多嘉宾只是强调了数据的重要性。现在您能用一两句话介绍一下你们采取了什么样的策略来应对数据瓶颈的问题吗?张家兴:我们的数据理念是,第一,相信从真实物理世界收集的数据。这句话王倩已经说过很多次了。其次,在整个数字金字塔中,我们更关注以人本身为本体收集的数据。这是成本最低、最实惠的数据,主要用于预训练。赵兴:我们也是基于真实的数据。然后是三个入口点。第一个切入点是真实性和质量。所以我们从真实机器人的数据收集开始。第二个重点是多样性。相比数据挖掘工厂,我们去更真实的场景去做数据挖掘。那么第三个方面,注重数量。扩大征收规模,降低征收成本。罗建兰:我们也坚持真实数据,也非常重视对数据质量的影响。我认为我们要强调两点。首先,赵星老师今天也说了,真实的数据应该在真实的场景中采集,而不仅仅是在数据采集工厂里采集。另外我想说的是,我认为未来整个数据飞轮的构建仍然是利用机器人自主生成数据。它不仅仅是远程操作,而是在真实场景中部署大量的机器人,然后机器人与环境进行交互,创建非常广泛且非常多样化的数据。王中原:我们还是坚持从视频数据中学习基础模型。因为正如今天提到的,视频数据是我们可以大量捕获并同时模拟现实世界的数据。然后对真机收集的数据进行处理,然后通过强化学习提供反馈,不断提高模型的能力。这套逻辑其实和ho是一样的当今孩子们使用手机了解世界:首先通过视频了解世界,然后通过真实的互动体验提高技能。这也符合第一性原理。王鹤:可能对这里的人来说,我强调的是模拟太多了。我们并不打算复制我们在现实世界中可能收集的数据,但我们发现很多底层控制都是通过大量的强化学习来学习的,而在现实世界中很难做到这样的强化学习。例如,我们今天看到的所有人形行走和舞蹈,包括各种复杂的身体控制,都是通过模拟器学习的。我们最近看到的趋势来自于我们与清华大学合作的灵巧手项目。直到今天,所有令人惊叹的手动执行任务都是通过模拟器学习的,而不是通过远程操作。因为你可以看到,当你远程控制一只触摸的手时,你不知道手的手指是否触碰,是否被卡住,以及接受的力量有多大。操作起来非常困难。所以我的观点是,模拟器并不意味着我们否定现实世界,而是这些丰富的物理交互,从模拟器开始,给了我们一个很好的基础控制器,它让我们能够在现实世界中转动数据飞轮。我认为这就是合成数据的使命。程浩:我们现在其实用的是模拟数据,因为用模拟数据更快。但我们目前使用模拟数据进行训练的目标实际上是快速实现体现智能,并在实现后获得大量真实数据。或许拿到真实数据后,整体能力会提升,你可能会发现有些情况下真实数据的成本太高,以后可以开始使用大量的模拟数据。我认为这可能是一个螺旋式上升的过程。最后,视频数据无疑是最丰富的t,但如今视频数据在实践中通常不是很有效。但我认为从历史的角度来看,这个问题一定是有解决办法的。因此,我们认为最终的解决方案很可能是数据融合。在任何阶段,哪个数据更容易使用,将首先使用。王倩:我们使用各种各样的数据,但可能有一个重点是我们使用它的地方。正如我刚才所说,不同的数据分布是不同的。例如,我们也使用互联网上的大量数据。基本上,我们抓取的是互联网上所有可以抓取到的数据。主要用于预训练和学习一般意义。我们也进行模拟,但我们不能将其用于接触和触及等操作。我们只能用它来导航和规划。该操作很大程度上可以基于这个物理世界的真实数据。赵冬斌:我觉得自动驾驶也应该是一个非常重要的体现例子。自动驾驶已经取得成果。从经验来看自动驾驶,它把汽车卖给消费端的用户,然后每个司机每天在路上行驶时返回数据。当我们的机器人可以在现实场景中出售或租赁并在工作时收集数据时,数据量将增加得更快。主持人:那么各位嘉宾可以用一句话解释一下您做决定时的首要原则是什么?张家兴:我相信图灵奖得主去年说的一句话:让机器发现自己,让机器探索。赵兴:我们刚建立星海图的时候,有一句话是“我们相信缩放法则”。也就是说,我们仍然相信数据规模可以逆转我们模型的演变和智能的实现。罗建兰:我认为我们必须做艰难但正确的事情。我们必须着眼长远。很多事情在短期来看是一种负担,但从长远来看却会创造巨大的价值。王贺:银河环球致力于扭转数据飞轮。甚至如果我们不做别人认为最酷的事情。程浩:做决策的时候,我们会关注是否能够落地,某个方向对于落地是否有用。王谦:我们的标准是能否在较长时期内为客户和消费者创造真正的价值。赵东斌:从研究的角度来说,智能驾驶和体现智能都会有交互支持。主持人:具身智能很有趣,但也很昂贵。一个简单的问题,如果给你的公司100亿元人民币来推动体现智能的发展,你会怎么花这笔钱?王倩:我觉得首先应该把所有能吸引到这个市场的优秀人才都吸引过来。第二,一定是计算能力和数据资源。程浩:首先我觉得100亿是不够的(笑)。那么如果我只有100亿,我应该找很多朋友来推动embodime的产业化nt。例如,投资致远研究院,吸引了来自世界各地的研究人才,集中精力在技术上做出相对长期的突破。王鹤:我觉得100亿确实不重要。重要的是你如何利用你的职业生涯和你定义的发展来吸引人才加入。我们每天打开大家的眼睛并不是为了钱,而是为了一个人类和机器人共存的未来世界。我也认为这10亿美元会用来支持致远研究院。罗建兰:我想我会造一个世界上最大的自旋转、封闭式数据飞轮。 100亿可以说是很多钱,也可以说是更少,但是第一个用100亿来做的人和机构还不存在。赵兴:我还想建立一个最大的数据库,可以将物理世界的所有信息数字化。张家兴:我希望能够设计一个我们身体智能的基础模型,以及然后做大规模的预训练,这样我们就可以衡量它。
特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本站仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。