OpenAI在官网首次展示了全新自定义音频大模型“Voice Engine”。
用户只需要提供15秒左右的参考声音,通过Voice Engine就能生成几乎和原音一模一样的全新音频,虽然在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强。但是至少中文听起来怪怪的。
Voice Engine目前的商业用途,包括帮助失去声音表达能力的人,正常发音说话。还可以给教育行业提供生成各种有声读物。以及帮助企业开发商品展示的“数字人进行各种翻译等。
“有意见”留言板
@媒体搬运工:前有Sora,现在出了Voice Engine,感觉OpenAI在有目的放出来,结合ChatGPT,从对话到视频到语音,OpenAI的AGI要闭环了。
@辣腿堡不加酱:帮助声音受损的人恢复声音在某种角度上真是件好事,但更多的担忧是会违规使用。毕竟现在通过打个电话发个语音消息采集到声音样本也不是件难事,安全性不好保证。
好文章,需要你的鼓励
今年是AI智能体的爆发年。聊天机器人正演进为能代表用户执行任务的自主智能体,企业持续投资智能体平台。调研显示,超半数高管表示其组织已在使用AI智能体,88%在智能体上投入过半AI预算的公司已从至少一个用例中获得投资回报。Gartner预测,到2026年40%的企业软件应用将包含智能体AI,2035年智能体AI可能驱动约30%的企业应用软件收入。企业开始将AI智能体视为员工,建立招聘培训体系。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
谷歌的Nano Banana Pro AI模型生成的图像逼真度令人震惊,其关键在于完美模拟了手机相机的拍照特征。这些AI生成的图像具备手机拍照的典型特点:明亮平坦的曝光、较大的景深范围、略显粗糙的细节处理,甚至包含噪点。该模型还能自动添加符合情境的细节元素,如房产照片的水印等,使图像更加真实可信。这种技术进步意味着辨别AI生成内容变得更加困难。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。