7月6日,百度线上举办“2022百度世界大会”媒体预沟通会,提前披露了即将在百度世界大会上发布的智能云、自动驾驶、大模型等重磅信息。
此次预沟通会由百度AI数字人度晓晓担任主持人。据透露,度晓晓、希加加等百度AI数字人将在大会上展现AIGC能力。百度集团副总裁袁佛玉表示,随着百度AI算法的突破,数字人制作成本将大幅降低,从百万级降低到万元级别,数字人生产周期从动辄几个月缩短到小时级别。百度现已形成了一个“AI数字人家族”。
我们的科技留言板“有意见”如下
@数字人劳模:百度为数字人造了一条“功能生成”流水线,并号称“小时级别”生产周期。归根还是其AI能力的移植,这里叫AIGC,人工智能自动生成内容。不过,数字人“功能”制作成本下降,也请“外形”CG特效制作跟上,否则就是一个高度智能音箱,换了个包装,披上数字“人皮”,不提也罢。
@素颜也倾城:随着AI能力的提升,AIGC让内容的生产变更加容易、有趣、有个性。“度晓晓”作为主持人,通过自身不断产生的内容,有效串联起现场用户与嘉宾之间的沟通,让原本枯燥的参数讲解变得生动有趣。但是专注智能汽车制造的百度,还是应该把服务用户、保障车辆安全性作为首要目标,毕竟虚拟数字人对于智能汽车来说只是加分项不是必选项。
@镜子:什么?只有万元的成本,还能歌会舞?看来以后虚拟人要比真人都多,谁还去社交网站上找那些既没有漂亮皮囊又没有有趣灵魂的人聊天啊。但AI最终也是人类的镜像,人说不定也是一段代码。
好文章,需要你的鼓励
博通宣布对VMware Cloud Foundation平台进行重大升级,将私有AI服务集成到核心订阅中,并为vSAN存储虚拟化软件添加云原生对象存储支持。此举旨在满足企业对简化基础设施、高效AI采用和网络安全的需求。升级包括与英伟达合作的VMware Private AI Foundation服务、支持AMD GPU、Amazon S3兼容对象存储、与Canonical合作的Ubuntu容器镜像,以及新的四阶段自动化安全流程。博通还推出了面向高监管行业的VCF网络合规高级服务。
清华大学等多家机构研究团队完成了语音分离技术的全面调研,系统梳理了从传统方法到深度学习的技术演进。研究揭示了"鸡尾酒会问题"的核心挑战,分析了各种学习范式和网络架构的优劣,并通过统一实验框架提供了公平的性能基准。调研涵盖了实时处理、轻量化设计、多模态融合等关键技术方向,为学术界和产业界的技术选型提供了重要参考,推动语音分离从实验室走向实际应用。
Google正式发布Gemini 2.5 Flash Image模型,该模型此前在测试版中被称为nanobanana。新模型为企业创意项目提供更多选择,能够快速修改图像外观并提供比以往模型更强的控制能力。该模型在保持人物相似度和编辑一致性方面表现出色,支持多轮编辑、照片融合等功能,并已集成到Gemini应用中供付费和免费用户使用。
浙江大学和腾讯微信视觉团队发现AI图片生成训练中"时机胜过强度"的重要规律,开发出TempFlow-GRPO新方法。通过轨迹分支技术精确评估中间步骤,结合噪声感知权重调整优化不同阶段的学习强度,将训练效率提升三倍,在复杂场景理解方面准确率从63%提升至97%,为AI训练方法论带来重要突破。