财经新闻网11月13日电(编辑赵浩)本周,人工智能初创公司Moonshot Ai主要高管在“美版贴吧”Reddit举办AMA(Ask Me)活动,回应了多个行业热点话题。参加本次活动的三位高管分别是杨之琳(论坛用户名:ComfortabeSk4494)、周希妮(Zxytim)和吴宇鑫(PPWWYYXX)。三人24小时持续回答论坛网友提出的问题。上周,Dark Side of the Moon 发布了 Kimi K2 Thinking,该公司称其为“迄今为止最强大的开放式思维模型”。因此,AMA活动中的大部分问题都与K2思维有关,例如在线模型发布时的问答环节。有人问为什么K2的思想可以在单次领悟中实现这么长时间的领悟和链式识别,而GPT5却不能? GPT5 Pro使用代理来延长延迟,但延迟效果仍然不如K2’单次延迟。未来是否考虑进一步提高基础模型的处理速度?杨志林回答道:“我认为处理时间取决于API的吞吐量,倾向令牌的数量取决于模型的训练方式。我们训练K2思维的方式倾向于使用更拥挤的令牌来获得最好的结果。我们的turbo API应该更快。FP4 over Int4真的有意义吗?”周新亚克表示,选择INT4是为了在使用现有的Int4推理marlin内核的同时,能够更好地与“非Blackwell GPU”匹配。吴宇鑫在另一个问题下表示,“我们使用的是配备Infiniband的H800 GPU;它不如美国的高端GPU,我们的显卡数量也处于劣势,但我们使用每张显卡!”有网友表示,K2的思维似乎使用了很多代币。杨之琳认可的是这种表现,而不是象征性的效率。我们会努力将效率融入奖励中”有人问,K2的思维经过专家训练,在高级逻辑推理(HLE)方面取得了不错的成绩,但“高分似乎与实际使用中的智能水平不符。”我们努力进一步提高其通用能力,使其在更多实际应用场景中充分发挥智能的作用。”当有网友问到,“K2的心智训练成本仅为460万美元。是元吗?”杨志林回复道:“这不是官方数据,因为训练成本很难衡量,很大一部分都用于研究和实验。”在点赞最多的回答中,周新宇表示,公司的新架构KDA(内核注意力双架构)可以让模型取得更高的基准分数,并且更快、更高效,让我们可以更快地预训练、更快地部署学习,并服务于所有人。杨志林还补充道:“KDA是我们最新的实验性架构,与KDA相关的思想很可能会应用到K3上。”当被问及K3车型何时推出时,杨智霖还调侃了Openai CEO Sam Altman。他回答说,K3车型肯定会在“价值万亿美元的萨姆建成之前”推出。当有网友问起他对《为什么伯诺伊烧了很多钱》的看法时,周希泥图说:“我不知道。”只有萨姆知道。我们有自己的方式和节奏。 “月球的暗面没有人工智能的计划。”当被问及该公司是否有“视觉语言模型(VL)计划”时,杨志林写道:“敬请期待!”
特别声明:以上内容(如有,包括图片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(如有,包括图片和视频)由网易HAO用户上传发布,社交媒体平台,仅提供信息存储服务。
财经新闻网11月13日电(编辑赵浩)本周,人工智能初创公司Moonshot Ai主要高管在“美版贴吧”Reddit举办AMA(Ask Me)活动,回应了多个行业热点话题。参加本次活动的三位高管分别是杨之琳(论坛用户名:ComfortabeSk4494)、周希妮(Zxytim)和吴宇鑫(PPWWYYXX)。三人24小时持续回答论坛网友提出的问题。上周,Dark Side of the Moon 发布了 Kimi K2 Thinking,该公司称其为“迄今为止最强大的开放式思维模型”。因此,AMA活动中的大部分问题都与K2思维有关,例如在线模型发布时的问答环节。有人问为什么K2的思想可以在单次领悟中实现这么长时间的领悟和链式识别,而GPT5却不能? GPT5 Pro使用代理来延长延迟,但延迟效果仍然不如K2’单次延迟。未来是否考虑进一步提高基础模型的处理速度?杨志林回答道:“我认为处理时间取决于API的吞吐量,倾向令牌的数量取决于模型的训练方式。我们训练K2思维的方式倾向于使用更拥挤的令牌来获得最好的结果。我们的turbo API应该更快。FP4 over Int4真的有意义吗?”周新亚克表示,选择INT4是为了在使用现有的Int4推理marlin内核的同时,能够更好地与“非Blackwell GPU”匹配。吴宇鑫在另一个问题下表示,“我们使用的是配备Infiniband的H800 GPU;它不如美国的高端GPU,我们的显卡数量也处于劣势,但我们使用每张显卡!”有网友表示,K2的思维似乎使用了很多代币。杨之琳认可的是这种表现,而不是象征性的效率。我们会努力将效率融入奖励中”有人问,K2的思维经过专家训练,在高级逻辑推理(HLE)方面取得了不错的成绩,但“高分似乎与实际使用中的智能水平不符。”我们努力进一步提高其通用能力,使其在更多实际应用场景中充分发挥智能的作用。”当有网友问到,“K2的心智训练成本仅为460万美元。是元吗?”杨志林回复道:“这不是官方数据,因为训练成本很难衡量,很大一部分都用于研究和实验。”在点赞最多的回答中,周新宇表示,公司的新架构KDA(内核注意力双架构)可以让模型取得更高的基准分数,并且更快、更高效,让我们可以更快地预训练、更快地部署学习,并服务于所有人。杨志林还补充道:“KDA是我们最新的实验性架构,与KDA相关的思想很可能会应用到K3上。”当被问及K3车型何时推出时,杨智霖还调侃了Openai CEO Sam Altman。他回答说,K3车型肯定会在“价值万亿美元的萨姆建成之前”推出。当有网友问起他对《为什么伯诺伊烧了很多钱》的看法时,周希泥图说:“我不知道。”只有萨姆知道。我们有自己的方式和节奏。 “月球的暗面没有人工智能的计划。”当被问及该公司是否有“视觉语言模型(VL)计划”时,杨志林写道:“敬请期待!”
特别声明:以上内容(如有,包括图片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(如有,包括图片和视频)由网易HAO用户上传发布,社交媒体平台,仅提供信息存储服务。