著名大模型开源平台stability.ai推出了——Stable Diffusion 3,据官方介绍,其对prompt的理解以及在图像质量、拼写能力方面的AI生图效果达到全新高度。关键是其创新的模型组合是在消耗更少的算力下实现的。
该创新模型指的是Transformer和Flow FMatching(简称“FM”)的组合。Transformer让AI效果更好,而FM这是更加高效的一种建模、训练技术。这样用不了多久在移动设备上实现更好的AI生图开发成为可能。
这就是开源平台的优势,越来越多的天才注视下,大模型由虚化实正在加速。
“有意见”留言板
@PC瑟瑟发抖:开源阵营追得好快,演示效果看起来很棒,有条件当然值得升级,但怎么又是waitlist?!而且参数规模比SD 2.1大了不少,根据Emad的说法,恐怕对硬件要求也更高了吧,起码用消费级PC带它感觉有点悬啊。
@变天了:采用了sora的架构,是不是侧面证明,美国的AI届现在已经在图片和视频生成上达成共识,diffusion transformers就是当前的最优解呢
好文章,需要你的鼓励
谷歌Agent Development Kit(ADK)革新了AI应用开发模式,采用事件驱动的运行时架构,将代理、工具和持久化状态整合为统一应用。ADK以Runner为核心,通过事件循环处理用户请求、模型调用和外部工具执行。执行逻辑层管理LLM调用和工具回调,服务层提供会话、文件存储等持久化能力。这种架构支持多步推理、实时反馈和状态管理,为构建超越简单聊天界面的生产级AI应用提供了完整框架。
上海AI实验室联合团队开发RoboVIP系统,通过视觉身份提示技术解决机器人训练数据稀缺问题。该系统能生成多视角、时间连贯的机器人操作视频,利用夹爪状态信号精确识别交互物体,构建百万级视觉身份数据库。实验显示,RoboVIP显著提升机器人在复杂环境中的操作成功率,为机器人智能化发展提供重要技术突破。
苹果在iOS 26中推出全新游戏应用,为iPhone、iPad和Mac用户提供个性化的游戏中心。该应用包含五个主要版块:主页展示最近游戏和推荐内容,Arcade专区提供超过200款无广告游戏,好友功能显示Game Center动态并支持游戏挑战,资料库可浏览已安装游戏并提供筛选选项,搜索功能支持按类别浏览。iOS 26.2版本还增加了游戏手柄导航支持,为游戏玩家提供更便捷的操作体验。
英伟达研究团队提出GDPO方法,解决AI多目标训练中的"奖励信号坍缩"问题。该方法通过分别评估各技能再综合考量,避免了传统GRPO方法简单相加导致的信息丢失。在工具调用、数学推理、代码编程三大场景测试中,GDPO均显著优于传统方法,准确率提升最高达6.3%,且训练过程更稳定。该技术已开源并支持主流AI框架。