一款视频生成AI工具正在产业界形成风暴,那OpenAI这两天发布的名为“Sora”的工具。报道称Sora突破了传统视频制作的限制,能够理解文字提示词,并通过视觉艺术的形式呈现给人眼。
从技术上看,ChatGPT是通过提示词形成一个有逻辑的完整对话,Sora是通过提示词形成一个完整的3D虚拟世界, 那么Sora的出现就是循序渐进的量变产生的质变。OpenAI员工透露说,Sora短期内不会面世。如果这两天Sora呈现的效果不是特别选出来而是平均生成水准的话,那么未来虚拟世界会有无限精彩。
“有意见”留言板
@不倒翁:视频生成AI能力给大家带来惊艳,也给科学家们带来更多的未解之谜。比如经验主义的工程化的背后原理是什么?基于涌现的预测大模型为什么实现了推理能力? RLHF(人类反馈强化学习)大模型的作用是如何什么产生的?背后的理论、规律还在摸索中,期待AI领域的牛顿、爱因斯坦的到来!
@媒体搬运工:如果说文字是对世界的理解,那么视频就是现实的复刻了,AI更准确说是OpenAI正在不断试探人类的底线,我觉得全球应该抵制OpenAI这个“邪恶组织”了。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。