近日,DeepMind推出了单一“通才”代理(Generalist Agent)Gato。该AI系统能够执行600多种不同的任务,可使用相同的权重来完成注释图像、聊天、玩小游戏、关节力矩控制、用机械臂堆叠积木等众多任务。据了解,这是第一个在如此多不同任务上都表现较好的AI模型。DeepMind称Gato为一种“多模式、多任务、多实施例的通才系统”,构建方法与GPT-3等大规模语言模型类似,但参数数量要小几个数量级,相比1750亿参数的GPT-3,Gato只有约12亿个参数。
我们的科技留言板及Twitter用户对此事“有意见”如下
@崔妮蒂:通用AI是DeepMind“有生之年”的目标。不过Gato的多任务,还是数量多,不是类别多,而人能学的类别是无限的,能左手写公式,右手刷盘子。但DeepMind毕竟是商业公司,却怀揣人类命运级的理想,值得赞。(题外话:谷歌早年搞计算机视觉是认猫,而Gato是西班牙语的猫,难道AI的尽头是铲屎官?)
@汤姆猫:很容易将Gato与通用人工智能AGI混淆。就像一个预存了600种不同游戏的游戏机,与一个拥有600种不同玩法的游戏,同样能玩600次,但本质是有区别的。
@Manish Patel:一个根本性问题,仍然是大量的数据构成了Gato的“源头”,它不学习新知识。
@媒体搬运工/@码客人生:AI模型走通用路线是死路一条,什么都可以的“通才”往往什么都做不太好,Gato其实也不例外,领域驱动的AI模型(domin-driven AI Modle)才是未来。
@不倒翁:可解释、可通用的AI技术是趋势,目的是可信任、可溯源,作用是约束,通过算法透明来约束机器人。想一想当机器人比人聪明,而且不受约束是多么的可怕。
@素颜也倾城:2019年,DeepMind推出的游戏AIphaStar,当时结构非常复杂,到了2022年,一个可以完成数百个任务的AI,它的架构仅仅是Transformer这个多面手。
好文章,需要你的鼓励
邻里社交应用Nextdoor推出重新设计版本,新增本地新闻、实时警报和名为"Faves"的AI功能,用于发现本地商户和地点。该应用与3500家本地出版商合作提供新闻内容,通过Samdesk和Weather.com提供天气、交通、停电等实时警报。Faves功能利用15年邻里对话数据训练的大语言模型,为用户提供本地化AI推荐服务,帮助用户找到最佳餐厅、徒步地点等本地信息。
Skywork AI推出的第二代多模态推理模型R1V2,通过创新的混合强化学习方法,成功解决了AI"慢思考"策略在视觉推理中的挑战。该模型在保持强大推理能力的同时有效控制视觉幻觉,在多项权威测试中超越同类开源模型,某些指标甚至媲美商业产品,为开源AI发展树立了新标杆。
英国生物银行完成了世界上最大规模的全身成像项目,收集了10万名志愿者的超过10亿次扫描数据,用于研究人体衰老和疾病过程。该项目历时11年,每次扫描耗时5小时,投资6200万英镑。目前已有8万人的成像数据供全球研究人员使用,剩余数据将于年底前发布。项目已开发出能预测38种常见疾病的AI工具,并在心脏病、痴呆症和癌症诊断方面取得突破。
这项由北京大学等多所高校联合完成的研究,首次对OpenAI GPT-4o的图像生成能力进行了全面评估。研究团队设计了名为GPT-ImgEval的综合测试体系,从文本转图像、图像编辑和知识驱动创作三个维度评估GPT-4o,发现其在所有测试中都显著超越现有方法。研究还通过技术分析推断GPT-4o采用了自回归与扩散相结合的混合架构,并发现其生成图像仍可被现有检测工具有效识别,为AI图像生成领域提供了重要的评估基准和技术洞察。