近日,DeepMind推出了单一“通才”代理(Generalist Agent)Gato。该AI系统能够执行600多种不同的任务,可使用相同的权重来完成注释图像、聊天、玩小游戏、关节力矩控制、用机械臂堆叠积木等众多任务。据了解,这是第一个在如此多不同任务上都表现较好的AI模型。DeepMind称Gato为一种“多模式、多任务、多实施例的通才系统”,构建方法与GPT-3等大规模语言模型类似,但参数数量要小几个数量级,相比1750亿参数的GPT-3,Gato只有约12亿个参数。
我们的科技留言板及Twitter用户对此事“有意见”如下
@崔妮蒂:通用AI是DeepMind“有生之年”的目标。不过Gato的多任务,还是数量多,不是类别多,而人能学的类别是无限的,能左手写公式,右手刷盘子。但DeepMind毕竟是商业公司,却怀揣人类命运级的理想,值得赞。(题外话:谷歌早年搞计算机视觉是认猫,而Gato是西班牙语的猫,难道AI的尽头是铲屎官?)
@汤姆猫:很容易将Gato与通用人工智能AGI混淆。就像一个预存了600种不同游戏的游戏机,与一个拥有600种不同玩法的游戏,同样能玩600次,但本质是有区别的。
@Manish Patel:一个根本性问题,仍然是大量的数据构成了Gato的“源头”,它不学习新知识。
@媒体搬运工/@码客人生:AI模型走通用路线是死路一条,什么都可以的“通才”往往什么都做不太好,Gato其实也不例外,领域驱动的AI模型(domin-driven AI Modle)才是未来。
@不倒翁:可解释、可通用的AI技术是趋势,目的是可信任、可溯源,作用是约束,通过算法透明来约束机器人。想一想当机器人比人聪明,而且不受约束是多么的可怕。
@素颜也倾城:2019年,DeepMind推出的游戏AIphaStar,当时结构非常复杂,到了2022年,一个可以完成数百个任务的AI,它的架构仅仅是Transformer这个多面手。
好文章,需要你的鼓励
在迪拜Gitex 2025大会上,阿联酋成为全球AI领导者的雄心备受关注。微软正帮助该地区组织从AI实验阶段转向实际应用,通过三重方法提供AI助手、协同AI代理和AI战略顾问。微软已在阿联酋大举投资数据中心,去年培训了10万名政府员工,计划到2027年培训100万学习者。阿联酋任命了全球首位AI部长,各部门都配备了首席AI官。微软与政府机构和企业合作,在公民服务和金融流程等领域实现AI的实际应用,构建全面的AI生态系统。
查尔斯大学和意大利布鲁诺·凯斯勒基金会的研究团队首次系统性解决了同声传译AI系统延迟评估的准确性问题。他们发现现有评估方法存在严重偏差,常给出相互矛盾的结果,并提出了YAAL新指标和SOFTSEGMENTER对齐工具。YAAL准确性达96%,比传统方法提升20多个百分点。研究还开发了专门的长音频评估工具LongYAAL,为AI翻译技术发展提供了可靠的测量标准。
苹果与俄亥俄州立大学研究人员发布名为FS-DFM的新模型,采用少步离散流匹配技术,仅需8轮快速优化即可生成完整长文本,效果媲美需要上千步骤的扩散模型。该模型通过三步训练法:处理不同优化预算、使用教师模型指导、调整迭代机制来实现突破。测试显示,参数量仅1.7亿至17亿的FS-DFM变体在困惑度和熵值指标上均优于70-80亿参数的大型扩散模型。
印度理工学院团队构建了史上最大规模印度文化AI测试基准DRISHTIKON,包含64288道多语言多模态题目,覆盖15种语言和36个地区。研究评估了13个主流AI模型的文化理解能力,发现即使最先进的AI也存在显著文化盲区,特别是在低资源语言和复杂推理任务上表现不佳,为构建文化感知AI提供了重要指导。