
这篇文章起源于微信公共帐户:Steam Cat Techmore,May -set:Biling Pea,标题图,来自:AI一代认为您只需要在计算机上说一个句子:“雨后湿滑的Cyberpunk城市,雨水在水坑里闪闪发光。”在几秒钟之内,您不再观看渲染前视频,而是亲自驾驶飞机,自由地穿越这个世界。 Hindi ito science fiction, ito ang hinaharap na prologue na isiniwalat sa amin ng pinakabagong paglabas ng Google DeepMind ng Genie 3. Sa alon ng artipisyal na intelihensiya na nabuo ng nilalaman (AIGC), nasaksihan namin ang kamangha -manghang pagganap ng mga modelo ng Openai Tulad ng Sora,Pika Sa Wensheng视频场的跑道,Na Maaaring Ibahin ang Anyo anyo na Imahinasyon na Inilalalarawan sa teksto sa teksto sa sa sa realistikong mga image。但是,Genie 3的释放是Nagmamarka的主要范式转移。这不是视频发电的另一个工具,而是“一般国际积极的环境”,或更准确的“世界模型”。主要区别在于,它将用户从内容的“被动消费者”更改为世界的“活跃参与者”,从“观看”到“播放”的“观看”到“播放”的令人惊叹的偏远跳跃。善良的人无处可去任何地方。它的出生是从一个明确而有效的战略目标。从一开始,精灵项目的最终任务直接针对人工智能的“圣杯” - Google DeepMind上的科学家都在许多情况下强调了世界模型。增强人类创造力 - 例如交付电影制片人OF Film和Midjourney -Google在另一首曲目上发芽:在训练其他AIS的“虚拟子宫”中开发AI。这种差异不是功能的简单权衡,而是对先进人工智能的两种不同理念和道路技术的选择。以前旨在赋予人们权力,而后者是Genie 3代表的道路,旨在创造可以独立学习和行动的机器智能。了解此基本差异是精确评估Genie 3的totoon价值和遥远影响的关键。目前,您的设备目前不支持播放。 1。这不仅是“观看”,而且是“播放”:Genie 3的四种主要技术的揭示。Genie 3可以从“视频”到“世界”的跃升是由于许多基本技术取得了重大成功。这些突破共同建立了一个前所未有的实时交易虚拟现实。突破1:实时接触Genie 3的最直观跳跃是实时的。这能够以720p分辨率和每秒24帧(24 fps)实时生产和渲染世界。它与其前身Genie 2相反,Genie 2需要几秒钟的计算时间来产生每个框架,并且无法提供整齐的交互体验。例如,Genie 2的经验就像观看其他人在玩游戏的录制一样,因为Genie 3允许您自己开始实时广播。您采取的每项动作(如果是运动,跳跃或转向)将立即收到来自世界的回应,而不是提交请求并等待AI“绘制”到下一个屏幕框架。这种即时反馈是针对人和AI代理商的研究的基础。只有在一个可以立即响应代理人可以理解“原因”并学习如何通过行动影响世界的环境中。突破性二:几分钟的“相互作用范围”,精灵3可以保持“分钟”连贯和互动会话,cAlled的“与触及到达的接触”,而毅力是指其相互作用的深度。相比之下,即使互动的理论上极限,精灵2的范围为60秒,实际上,生成的世界经常在10到20秒后开始“装饰”,从而导致逻辑混乱或视觉崩溃的“幻觉”现象。显着的接触时间意味着Genie 3可以支持需要多个步骤完成的更复杂的任务模拟。这对于培训代理人执行“长马计划”很重要。对于人类用户而言,这意味着从归档技术的演示升级到可以真正探索的“微世界”。突破性三:视觉记忆似乎这是Genie 3的最令人惊叹的功能。在世界发展,Drumsago的其他和环境中,这些变化即使在您的视野之后也会保留。 Google官方演示的最经典例子是WAL上用户的蓝色油漆l带有滚筒刷的虚拟房间的l,然后转动在其他地方探索,当他转身时,墙上的油漆标记清晰可见。更重要的是,深媒体科学家强调,世界的视觉记忆和一致性是一种“新兴”的能力,而不是由硬编码的政策对其进行编程。它可以理解为一个强大的神经网络,自愿理解“永久拥有事物”的物理世界的基本规则。此功能具有重要意义。先前的模型类似于条件图像发生器,而TheGenie 3开始构建一个内在的,相互关联的“世界模型”。一个可以理解的是,“当我看不见它们时仍然存在”是更接近现实世界的观点的一步。突破四:世界精灵3事件不仅允许用户在世界上行动,而且还为用户提供了改变世界的能力。通过输入新文本标志,用户可以在当前注入新元素或事件实时的环境,例如在滑雪场景中从稀薄的空气中加入一个鹿的团体,或者立即将风暴召唤到温柔的湖泊。这种能力使用户具有“导演”或“上帝”的力量。您不再只是世界上的女演员,您还可以实时更改和场景而不会打扰您的经历。对于AI培训,这意味着研究人员可以在模拟环境中动态注入各种“意外”和“假设”情况(即“反事实”),从而测试了试剂的稳定性和适应性,以应对安全和控制的环境环境中的紧急情况。您的设备当前不支持播放下表。 Genie系列模型的进化能力的比较:Genie系列模型的进化能力的比较:Genie 3的“第一名”是一个真正的使命和商业蓝图,尽管Genie 3在游戏,教育领域表现出了有吸引力的前景。基本MISSION:最重要的AP The Agi Crucible Genie 3是培训AI代理,尤其是“体现的代理”,例如机器人和自动驾驶汽车。世界模型解决了机器人技术和AGI研究中的主要瓶颈:对大规模,多样,安全和廉价培训数据的渴望。练习在现实世界中开车的仓库或汽车是缓慢,昂贵且危险的。但是,在Genie 3产生的世界中,数百万的驾驶场景或活动活动可以模仿,包括现实中非常罕见的“黑天鹅”事件,从而极大地改善了代理人的稳定性和可靠性。 Google用Genie 3培训了SIMA(可扩展的,多世界代理指南),表明该应用程序已从理论转变为实践。它的背后反映了AI的发展概念的深刻变化:从“数据驱动的研究”过渡到“经验驱动的情报”。传统的大型语言模型(LLM)通过研究大规模的知识渊博的“学校大师”知识互联网上的文本和图片数据,并习惯于识别该模式,但他们对物理世界关系的原因缺乏理解的理解。世界模型提供了动态的“沙盒”,代理可以采取行动,观察后果并形成封闭环。通过这种虚拟的“个人经验”,AI不再需要记住物理定律,但是像一个小人一样,通过与环境互动,逐渐建立了对物理世界的理解的简单理解。从“书籍知识”到“实践知识”的这种变化ISA的关键步骤是AI从模仿智力中的理解世界中转变。应用程序2:游戏行业的双叶片在游戏行业中释放Genie 3的前景无疑正在中断:从理论上讲,它可以减少每月创建游戏场景的时间,从而大大降低发展成本。预计将实现“民主”ION“游戏的开发,允许小型独立工作室,甚至个人开发人员能够创造一个大世界。但是,目标与现实之间存在差距。一些游戏的研究人员和开发人员提前经历了Genie 3的经历为“引擎游戏”,目前具有明显的缺点。例如,诸如“游戏世界”通常没有良好的图形,而且奇怪的是“奇怪的是”。不可预测或不可预测,与精致的成年人的编辑能力相当,例如,在这个阶段,Genie 3更合适,是一种“构思工具”,可以激发创造力,以激发创造力,以快速证明您的思想,而不是避免经济发展。危机”,与数亿美元的投资和多年的发展周期忽略了许多工作室。 Genie 3代表的技术方向为解决主要经济问题提供了后期答案。因此,即使今天它并不完美,它的未来发展并最终被该行业采用似乎是不可逆转的趋势。应用3:教育和模拟的未来,精灵3的潜力也达到了教育领域。它可以在学习中创造一个高度互动的惊人环境。想象一下,历史学生不再阅读令人讨厌的文本,而是可以“走”与虚拟公民互动的古代罗马国家。医学生可以在模拟的急诊室反复练习,而无需承担任何真正的风险。该技术尤其是使用生成的AI和模拟技术的更广泛的教育技术趋势,为MA提供个人和实践学习经验KE传统课堂教学的缺点。到目前为止,您的设备目前不支持播放。 Genie 3和Sora和跑道之间的最终摊牌。对于普通用户,Genie 3,Sora和跑道似乎制作了“ AI生成的视频”。但是,对其基本技术和设计概念的深入分析将表明它们属于不同的物种。主要区别:与视频模型相比,最重要的区别是Genie 3是一种用于模仿交互过程的世界模型,而Sora和Runbatang IS和Pika是用于产生最终结果的视频模型。一个合适的隐喻是:Sora是一位经验丰富的画家,他可以创建令人惊叹的精油绘画,该油画根据您的描述描述了英格兰战争的场景。 Genie 3是一张战棋,它使您可以亲自命令军队到沙桌上进行战斗。前者是为了欣赏,后者是为了手术。下表提供了全面的当前基本视频/世界模型的比较:主要生成视频/世界模型的性能,效果和深入性能以及效果:当前演示,形成的视频的判断已经达到了视觉效果,光和阴影效果和电影意义的惊人高度,可以称为“视觉视觉”。相比之下,即使是Genie 3的输出也达到了一个良好的水平,有时具有“超级真实的”质地甚至“怪异的山谷”,并且在细节方面不像Sora一样精制。这与他们各种优化目标的不同之处:Sora追求最终图片的“视觉理性”,而Genie 3则在接触过程中追求“身体一致性”和“逻辑连续性”。为了确保与世界状况的实时和稳定性接触,Genie 3必须在一定程度上牺牲渲染单帧的质量。成本和访问:目前,Genie 3处于严格控制的研究预览阶段,不可用向普通用户。它的竞争对手,例如Sora,Runway和Pika,已作为商业产品向公众开放,并采用了SaaS或付费模型的相对成熟的订阅。它还反映了他们的各种业务逻辑:OpenAI和Runway等公司需要快速通过创意工具获得市场共享和流动,而Google具有强大的财务资源,可以支持DeepMind进行更长的AGI研究,而与当时Genie 3收入的直接问题无关。 4。理想和事实:面对Genie 3的局限性和未来,尽管Genie 3取得了里程碑的成就,但在成为世界上成熟且可靠的通用通用模拟器之前,它还有很长的路要走。处理当前限制有助于我们更合理地研究其未来。目前有限的接触时间和稳定性:与Reach相关的会议记录是一个巨大的进步,但不足以实现真实游戏或认真模拟培训。 DeepMind本身承认,该模型必须稳定运行,这是真正实用的。此外,在经营长时间或处理复杂情况时,世界仍然是“解释的”。保真度和人工制品:该模型不能完美地重现真正的地理位置,并且在发电过程中通常伴有独特的图形伪影或扭曲。控制和“游戏的感觉”:如前所述,通过自然语言信号控制的方式非常粗糙和准确,导致了“游戏意识”,这是游戏引擎作为游戏引擎的最大障碍。复杂性处理:该模型具有良好的物理相互作用(尤其是不稳定的身体),清晰可读的文本的发展以及许多代理之间复杂关系的局限性仍然非常困难。 Genie 3的Hallap很明显:首要任务是互动范围的持续扩展,提高忠诚度和STA能力,并提高控制的准确性。此外,急切的方向之一是VR/AR技术的集成。为了实现这一目标,Genie 3的未来版本将需要解决一系列技术挑战,例如与人眼的实时产生的立体图像,监测支持六个自由度(6DOF)的人体姿势(6DOF)作为输入,并保证过度的低延迟和过度的高恢复率。技术爱好者和社区研究人员认为,为了达到这个空间的一致性,基本的Genie 3建筑可能采用了几本小说,3D隐含的神经辐射场(NERF)或高斯平台的隐性表示,但比它们更具动态和灵活性,暗示其背后的主要工程挑战。 5。我们距离“元文”和“通用人工智能”有多远? Genie 3的发行是值得记住Artificia发展历史的时刻l智力。这的真正含义不是给我们普通人一个玩具“一代一代游戏”,而是向世界展示一种新的强大技术,用于消除AI的真实智能。这是一种用于制造“工人”(代理商)的工具,而不仅仅是制造“工艺”(内容)。通过Genie 3,DeepMind创建了一个“世界模型”混凝土和清醒的略有抽象的概念。这证明了通过与虚拟Mundor互动而使AI学习的途径将能够做到。它为长时间旅行点燃了新的街道灯。那么,这是否意味着传奇的“元文”或AGI即将到来?对于“ Metauniverse”,Genie 3等技术表明,真正的动态,无尽和自由探索虚拟世界不会由砖头开发人员建造,而不是传统游戏。通过强大的世界模型,更有可能“梦想”什么。 Genie 3是这台梦想机器的早期且非常杰出的原型。对于Agi,Genie 3的出现不得EAN认为AGI已被实施,但标志着达到AGI所需的关键基础设施。就像在航空时期的早期一样,工程师建造了第一个空中隧道。他们还没有建造过超音速飞机,但是他们创造了一个必要的环境,可以尝试,希望并最终生下超音速飞机。从这个角度来看,Genie 3的“魔术灯”被抛光了,从中跳起来的“精灵”将是一种比我们今天所看到的更强大的人工智能。本文源自《微信公共帐户:蒸汽猫技术》,带有-set:沸腾的豌豆,此内容是该集合的独立视图,并不代表Huxiu的位置。未经许可,不得复制复制。有关同意,请联系
[email protected]本文来自Huxiu。原始链接是:https://www.huxiu.com/article/4707170.html?f=wyxwapp
特别声明:上面的内容(INC“ netease”自助媒体平台已上传和发布了吸引照片或视频。该平台仅提供信息存储服务。
注意:上面的内容(包括照片和视频(如果有))已由NetEase Hao用户上传和发布,该用户是社交媒体平台,仅提供信息存储服务。