上周四,谷歌在YouTube官方账号发布了一个Gemini的交互演示视频,引发了大量网友的关注和讨论,然而热度和夸赞还没享受多久,谷歌转眼就陷入了造假风波。视频中看起来Gemini能够快速识别图像,并通过自己的理解直接做出反应。但实际上,这段演示视频并不是实时的,而是通过读取图片,再编写提示词,才让Gemini做出的回应。事后谷歌已经证实,视频确有剪辑。
“有意见”留言板
Ada:Gemini的“原生多模态”,区别于现有的“拼凑多模态”模型,即从一开始就使用多种模态(例如音频、视频和图像)训练而成。因此,Gemini可能会带来一些突破,但不要先把信任搞没了,毕竟谷歌在制作演示视频这方面有前科。
@辣腿堡不加酱:虽说谷歌视频演示的多模态能力,可能在一年内就能实现。但宣传过火,以至于让公众认为视频造假,不知是不是单纯为了博眼球,赚流量,但给公众的感受还是不太好的。
@媒体搬运工:大模型也玩大跃进?大家都不能免俗,踏实研究别浮躁,人工智能时代要务实一些!
好文章,需要你的鼓励
苹果为多个Magic Keyboard型号发布固件更新,涵盖M4和M5 iPad Pro的11英寸和13英寸版本,以及为M3 iPad Air设计的11和13英寸Magic Keyboard。虽然这类更新不常见,但通常包含重要的漏洞修复、安全更新以及可靠性和性能改进。目前苹果尚未公布详细更新说明。用户可通过设置查看当前固件版本。
德国MPI信息学院等机构联合研究发现,当前先进的大型视觉语言模型在处理多张图片时存在严重局限:无法有效整合跨图片信息、难以同时追踪多个概念、易被干扰图片影响。研究团队通过MIMIC测试平台系统分析了这些问题,并提出数据驱动和注意力掩蔽两种解决方案,显著提升了AI的多图像理解能力,为未来多模态AI系统发展提供重要技术路径。
马斯克表示特斯拉将重启此前放弃的第三代AI芯片Dojo3项目,但这次不是用于地面自动驾驶模型训练,而是专门用于"太空AI计算"。五个月前特斯拉曾关闭Dojo项目并解散团队。马斯克称重启决定基于内部AI5芯片设计进展良好。他计划利用SpaceX的星舰发射计算卫星群,在太空中24小时利用太阳能运行AI数据中心,认为这是未来发展方向。
复旦大学团队构建的ABC-Bench是首个专门评估AI代码智能体完整后端开发能力的基准测试。该基准包含224个来自真实项目的任务,涵盖8种编程语言和19种框架,要求AI完成从仓库探索到服务部署的全流程开发。测试结果显示,即使最先进的Claude Sonnet 4.5模型通过率也仅63.2%,环境配置成为主要瓶颈,揭示了AI代码助手与实际工程需求间的显著差距。