面对ChatGPT的压力,谷歌太需要一款杀手级AI产品,证明自己在人工智能领域的地位。在6月的I/O开发者大会上,谷歌CEO皮查伊首次透露了Gemini的存在,如今Gemini终于面向公众推出了。谷歌针对不同场景发布了三种不同版本:Gemini Ultra、Gemini Pro 和 Gemini Nano。谷歌表示,这是其迄今为止功能最强大、最通用的人工智能大模型,根据谷歌给出的基准测试结果,Gemini在许多测试中击败了OpenAI的GPT-4。
“有意见”留言板
@刷数据:不是同一基准就来“遥遥领先了?”,Gemini 为何要用 Cot@32 的数据和 GPT-4的5-shot数据比较?同一基准上反而有的项目还不及,比如在HellaSwag数据集上还落后GPT4很多,这个发布报告是来挑战读者会不会仔细看的么?
@Betty:功能都有一样,能不能有点创新?
好文章,需要你的鼓励
微软研究院推出VIBEVOICE,这是一种革命性的AI语音合成技术,能够一次性生成长达90分钟的多人对话音频。
成均馆大学团队开发出选择性对比学习新方法,让机器通过观察人类交互场景学会识别物体功能部位。该技术突破传统局限,采用动态学习策略,能根据信息质量调整学习方式,在多个数据集上显著超越现有方法,为机器人、自动驾驶等领域的智能交互应用奠定重要基础。
微软与三星达成合作,将Copilot人工智能助手集成到三星的智能电视和显示器产品中。用户可以通过语音或遥控器直接与Copilot交互,获得智能问答、内容推荐、设备控制等服务。这一合作标志着AI助手从传统计算设备向家庭娱乐设备的进一步扩展,为用户提供更加智能化的观看体验。
新加坡南洋理工大学研究团队开发出EgoTwin系统,这是首个能够根据文字描述同时生成第一人称视频和匹配人体动作的AI框架。该系统通过创新的头部中心动作表示方法和因果交互机制,解决了视角对齐和动作画面同步的核心难题,在17万样本的真实数据集上实现了显著性能提升,为VR内容创作、影视制作等领域提供了新的技术可能。