在理解、推理、数学等领域,大模型都不是肉眼可见的速度进化,而是像坐上火箭一样。最新的消息显示Anthropic升级大模型Claude3。报告说,Claude 3系列模型在推理、数学、编码、多语言理解和视觉方面,都树立了新的行业基准!其中Claude3的Opus模型,已经全面超越GPT4。特别是在复杂的推理任务上,Claude3可以说是全面吊打GPT-4。
虽然技术报告的指标可能并不能反应真实能力,但是通过数据训练和迭代,真实能力超过指标也是瞬间的事情。
“有意见”留言板
@不倒翁:大模型进化真是一天一个样,按照演示来看,Claude3进化最大的,就是推理,就是逻辑。目前初中的物理、化学和数学等理科题基本都秒解,而且准确率吊打很多学生了,关键是用不了多久,可能高中题就搞定,只要训练的足够多。
@周一见:大语言模型的技术竞争日益激烈,每一代都有显著进步。听说Claude 3的Opus模型已接近人类理解水平,希望能对话看看它能否为我们带来更加智能和高效的服务。
好文章,需要你的鼓励
Anthropic发布SCONE-bench智能合约漏洞利用基准测试,评估AI代理发现和利用区块链智能合约缺陷的能力。研究显示Claude Opus 4.5等模型可从漏洞中获得460万美元收益。测试2849个合约仅需3476美元成本,发现两个零日漏洞并创造3694美元利润。研究表明AI代理利用安全漏洞的能力快速提升,每1.3个月翻倍增长,强调需要主动采用AI防御技术应对AI攻击威胁。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
Spotify年度总结功能回归,在去年AI播客功能遭遇批评后,今年重新专注于用户数据深度分析。新版本引入近十项新功能,包括首个实时多人互动体验"Wrapped Party",最多可邀请9位好友比较听歌数据。此外还新增热门歌曲播放次数显示、互动歌曲测验、听歌年龄分析和听歌俱乐部等功能,让年度总结更具互动性和个性化体验。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。