面对ChatGPT的压力,谷歌太需要一款杀手级AI产品,证明自己在人工智能领域的地位。在6月的I/O开发者大会上,谷歌CEO皮查伊首次透露了Gemini的存在,如今Gemini终于面向公众推出了。谷歌针对不同场景发布了三种不同版本:Gemini Ultra、Gemini Pro 和 Gemini Nano。谷歌表示,这是其迄今为止功能最强大、最通用的人工智能大模型,根据谷歌给出的基准测试结果,Gemini在许多测试中击败了OpenAI的GPT-4。
“有意见”留言板
@刷数据:不是同一基准就来“遥遥领先了?”,Gemini 为何要用 Cot@32 的数据和 GPT-4的5-shot数据比较?同一基准上反而有的项目还不及,比如在HellaSwag数据集上还落后GPT4很多,这个发布报告是来挑战读者会不会仔细看的么?
@Betty:功能都有一样,能不能有点创新?
好文章,需要你的鼓励
Anthropic发布SCONE-bench智能合约漏洞利用基准测试,评估AI代理发现和利用区块链智能合约缺陷的能力。研究显示Claude Opus 4.5等模型可从漏洞中获得460万美元收益。测试2849个合约仅需3476美元成本,发现两个零日漏洞并创造3694美元利润。研究表明AI代理利用安全漏洞的能力快速提升,每1.3个月翻倍增长,强调需要主动采用AI防御技术应对AI攻击威胁。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
Spotify年度总结功能回归,在去年AI播客功能遭遇批评后,今年重新专注于用户数据深度分析。新版本引入近十项新功能,包括首个实时多人互动体验"Wrapped Party",最多可邀请9位好友比较听歌数据。此外还新增热门歌曲播放次数显示、互动歌曲测验、听歌年龄分析和听歌俱乐部等功能,让年度总结更具互动性和个性化体验。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。