OpenAI在官网首次展示了全新自定义音频大模型“Voice Engine”。
用户只需要提供15秒左右的参考声音,通过Voice Engine就能生成几乎和原音一模一样的全新音频,虽然在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强。但是至少中文听起来怪怪的。
Voice Engine目前的商业用途,包括帮助失去声音表达能力的人,正常发音说话。还可以给教育行业提供生成各种有声读物。以及帮助企业开发商品展示的“数字人进行各种翻译等。
“有意见”留言板
@媒体搬运工:前有Sora,现在出了Voice Engine,感觉OpenAI在有目的放出来,结合ChatGPT,从对话到视频到语音,OpenAI的AGI要闭环了。
@辣腿堡不加酱:帮助声音受损的人恢复声音在某种角度上真是件好事,但更多的担忧是会违规使用。毕竟现在通过打个电话发个语音消息采集到声音样本也不是件难事,安全性不好保证。
好文章,需要你的鼓励
苹果为多个Magic Keyboard型号发布固件更新,涵盖M4和M5 iPad Pro的11英寸和13英寸版本,以及为M3 iPad Air设计的11和13英寸Magic Keyboard。虽然这类更新不常见,但通常包含重要的漏洞修复、安全更新以及可靠性和性能改进。目前苹果尚未公布详细更新说明。用户可通过设置查看当前固件版本。
德国MPI信息学院等机构联合研究发现,当前先进的大型视觉语言模型在处理多张图片时存在严重局限:无法有效整合跨图片信息、难以同时追踪多个概念、易被干扰图片影响。研究团队通过MIMIC测试平台系统分析了这些问题,并提出数据驱动和注意力掩蔽两种解决方案,显著提升了AI的多图像理解能力,为未来多模态AI系统发展提供重要技术路径。
马斯克表示特斯拉将重启此前放弃的第三代AI芯片Dojo3项目,但这次不是用于地面自动驾驶模型训练,而是专门用于"太空AI计算"。五个月前特斯拉曾关闭Dojo项目并解散团队。马斯克称重启决定基于内部AI5芯片设计进展良好。他计划利用SpaceX的星舰发射计算卫星群,在太空中24小时利用太阳能运行AI数据中心,认为这是未来发展方向。
复旦大学团队构建的ABC-Bench是首个专门评估AI代码智能体完整后端开发能力的基准测试。该基准包含224个来自真实项目的任务,涵盖8种编程语言和19种框架,要求AI完成从仓库探索到服务部署的全流程开发。测试结果显示,即使最先进的Claude Sonnet 4.5模型通过率也仅63.2%,环境配置成为主要瓶颈,揭示了AI代码助手与实际工程需求间的显著差距。