OpenAI在官网首次展示了全新自定义音频大模型“Voice Engine”。
用户只需要提供15秒左右的参考声音,通过Voice Engine就能生成几乎和原音一模一样的全新音频,虽然在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强。但是至少中文听起来怪怪的。
Voice Engine目前的商业用途,包括帮助失去声音表达能力的人,正常发音说话。还可以给教育行业提供生成各种有声读物。以及帮助企业开发商品展示的“数字人进行各种翻译等。
“有意见”留言板
@媒体搬运工:前有Sora,现在出了Voice Engine,感觉OpenAI在有目的放出来,结合ChatGPT,从对话到视频到语音,OpenAI的AGI要闭环了。
@辣腿堡不加酱:帮助声音受损的人恢复声音在某种角度上真是件好事,但更多的担忧是会违规使用。毕竟现在通过打个电话发个语音消息采集到声音样本也不是件难事,安全性不好保证。
好文章,需要你的鼓励
Velotric Tempo是一款以骑行体验为核心的轻量级通勤电动自行车,整车重量仅17.7kg。配备350W后轮毂电机和360Wh电池,续航可达50-65公里。支持踏频与扭矩传感器双模式切换,骑行感受自然流畅。内置Apple Find My及安卓追踪功能,具备UL认证和IPX6/IPX7防水等级。主要不足在于Class 3模式下油门被完全禁用,油门手感欠佳,且售价1499美元略偏高,挡泥板和后货架需另购。
亚马逊团队提出DOT-MoE方法,用最优运输理论将稠密大模型改造为稀疏混合专家模型,在减少50%激活参数的同时保留90%原始性能。
一家加拿大家具制造商借助发那科M-710iC工业机器人,成功将传统劳动密集型软垫工序自动化。该系统由发那科授权系统集成商Dvolu开发,集机器视觉、机器人操作与激光裁剪于一体,可完成面料拉伸、钉合、裁剪及码垛等工序,无需人工干预即可适应零件差异。项目旨在解决家具行业劳动力短缺问题,为难以招募和留用工人的岗位提供有效替代方案。
南京大学与阿里巴巴联合研究,提出TVIR框架,包含100题多模态深度研究基准TVIR-BENCH及多智能体系统TVIR-AGENT,填补AI研究报告在图文交织生成与评估上的空白。