字节自己研发的PixelDance视频生成模型,结合视频转化工具Boximator,实现了全新的静态图转换成流畅视频方式。就是在图上框一个圈,圈住选择对象,比如猫猫狗狗,飞机大炮。然后基于这些物体画出一个轨迹,也就是运动路径,然后这个物体就以视频的形式动起来了。
据了解,该工具的优势是视频质量上超越了基础模型,其视频效果更受欢迎。可以帮助用户的创意实现的更好。让个性化和创意表达更流畅。
“有意见”留言板
@卡卡卡卡西:文生视频已经是生成式AI一个风口之上的应用场景了,去年看到国外做文生视频的软件已经有几十款,实际体验过几款后发现还是有一些问题,一是生成的视频内容不可控,不一定是你想要的,二是对提示词有很高的依赖,三是对算力有较高要求、这也直接导致不少创业团队做的这类软件每人每天只会有几个体免费生成视频的额度,更多就需要额外再收费了。
@贰言;Boximator能够生成多样可控的视频动态,创作独特且吸引人的内容,为用户提供全新编辑体验。迫不及待去尝试下,结果发现功能尚未完善,且暂无移动端版本。因此,要真正评估Boximator的效果和实用性,还需要亲自体验才能得知。
好文章,需要你的鼓励
OpenAI、Anthropic和Google的AI代码助手现在能够在人工监督下连续工作数小时,编写完整应用、运行测试并修复错误。但这些工具并非万能,可能会让软件项目变得复杂。AI代码助手的核心是大语言模型,通过多个LLM协作完成任务。由于存在上下文限制和"注意力预算"问题,系统采用上下文压缩和多代理架构来应对。使用时需要良好的软件开发实践,避免"氛围编程",确保代码质量和安全性。研究显示经验丰富的开发者使用AI工具可能反而效率降低。
香港大学研究团队发布GenieDrive技术,通过引入4D占用空间概念,让AI真正理解驾驶的物理规律。该系统能将复杂驾驶场景分解为物理预测和视频生成两步,解决了传统AI只会模仿、容易产生偏见的问题。测试显示其预测准确度提升7.2%,视频质量提升20.7%,且能准确响应各种驾驶指令,为开发更安全的自动驾驶系统提供了新范式。
英伟达与AI芯片竞争对手Groq达成非独家授权协议,将聘请Groq创始人乔纳森·罗斯、总裁桑尼·马德拉等员工。据CNBC报道,英伟达以200亿美元收购Groq资产,但英伟达澄清这并非公司收购。Groq开发的LPU语言处理单元声称运行大语言模型速度快10倍,能耗仅为十分之一。该公司今年9月融资7.5亿美元,估值69亿美元,为超200万开发者的AI应用提供支持。
这项由孟加拉国工程技术大学、澳大利亚莫纳什大学和卡塔尔计算研究所联合开展的研究,首次让网页机器人具备了"后悔能力"和"战略思维"。WebOperator系统通过树状搜索、安全回退和破坏性动作识别三大创新,在WebArena测试中达到54.6%成功率,显著超越以往记录。该技术有望革命性改变电子商务、办公自动化和内容管理等领域的效率和可靠性。