近日,DeepMind推出了单一“通才”代理(Generalist Agent)Gato。该AI系统能够执行600多种不同的任务,可使用相同的权重来完成注释图像、聊天、玩小游戏、关节力矩控制、用机械臂堆叠积木等众多任务。据了解,这是第一个在如此多不同任务上都表现较好的AI模型。DeepMind称Gato为一种“多模式、多任务、多实施例的通才系统”,构建方法与GPT-3等大规模语言模型类似,但参数数量要小几个数量级,相比1750亿参数的GPT-3,Gato只有约12亿个参数。
我们的科技留言板及Twitter用户对此事“有意见”如下
@崔妮蒂:通用AI是DeepMind“有生之年”的目标。不过Gato的多任务,还是数量多,不是类别多,而人能学的类别是无限的,能左手写公式,右手刷盘子。但DeepMind毕竟是商业公司,却怀揣人类命运级的理想,值得赞。(题外话:谷歌早年搞计算机视觉是认猫,而Gato是西班牙语的猫,难道AI的尽头是铲屎官?)
@汤姆猫:很容易将Gato与通用人工智能AGI混淆。就像一个预存了600种不同游戏的游戏机,与一个拥有600种不同玩法的游戏,同样能玩600次,但本质是有区别的。
@Manish Patel:一个根本性问题,仍然是大量的数据构成了Gato的“源头”,它不学习新知识。
@媒体搬运工/@码客人生:AI模型走通用路线是死路一条,什么都可以的“通才”往往什么都做不太好,Gato其实也不例外,领域驱动的AI模型(domin-driven AI Modle)才是未来。
@不倒翁:可解释、可通用的AI技术是趋势,目的是可信任、可溯源,作用是约束,通过算法透明来约束机器人。想一想当机器人比人聪明,而且不受约束是多么的可怕。
@素颜也倾城:2019年,DeepMind推出的游戏AIphaStar,当时结构非常复杂,到了2022年,一个可以完成数百个任务的AI,它的架构仅仅是Transformer这个多面手。
好文章,需要你的鼓励
英特尔携手戴尔以及零克云,通过打造“工作站-AI PC-云端”的协同生态,大幅缩短AI部署流程,助力企业快速实现从想法验证到规模化落地。
意大利ISTI研究院推出Patch-ioner零样本图像描述框架,突破传统局限实现任意区域精确描述。系统将图像拆分为小块,通过智能组合生成从单块到整图的统一描述,无需区域标注数据。创新引入轨迹描述任务,用户可用鼠标画线获得对应区域描述。在四大评测任务中全面超越现有方法,为人机交互开辟新模式。
阿联酋阿布扎比人工智能大学发布全新PAN世界模型,超越传统大语言模型局限。该模型具备通用性、交互性和长期一致性,能深度理解几何和物理规律,通过"物理推理"学习真实世界材料行为。PAN采用生成潜在预测架构,可模拟数千个因果一致步骤,支持分支操作模拟多种可能未来。预计12月初公开发布,有望为机器人、自动驾驶等领域提供低成本合成数据生成。
MIT研究团队发现,AI系统无需严格配对的多模态数据也能显著提升性能。他们开发的UML框架通过参数共享让AI从图像、文本、音频等不同类型数据中学习,即使这些数据间没有直接对应关系。实验显示这种方法在图像分类、音频识别等任务上都超越了单模态系统,并能自发发展出跨模态理解能力,为未来AI应用开辟了新路径。