大语言模型有个弱点是偏科,由于是基于语言文本训练的,它们更擅长文科,在解决数学问题方面显得力不从心。比如之前好几个大模型都没算明白鸡兔同笼。近日,学而思宣布正在自研数学大模型MathGPT,并将于年内推出基于该模型的产品级应用。学而思AI团队表示,MathGPT需要结合大语言模型和计算引擎两者的能力,大语言模型负责理解题目、分步解析,并在合适的步骤自行调用计算引擎。
“有意见”留言板
@不倒翁:打造一个能力超强的会教数学、做数学题的大模型是完全可能的。可惜现在缺少高斯、牛顿、华罗庚等数学天才。要是这些天才把自己的学习方法喂给AI,那AI的数学能力肯定超强的。目前AI唯一缺陷就是能耗太高。人脑消耗1瓦特做的算术题,AI可能需要10万瓦特。
@黑咕隆咚:学而思关于自研数学大模型的研发,还是比较有前瞻性的。数学在各个领域都发挥着举足轻重的作用,也许以后还能为数学教育和科研发展带来革命性的影响呢。
@周一见:从目前发布的应用来看,这一轮大模型的星星之火,率先在教育产业点燃。这对于个性化辅导、提高学习效率,或许会有非常大的价值,长期看,对于教育普惠也将带来更多想象空间。
好文章,需要你的鼓励
Anthropic发布SCONE-bench智能合约漏洞利用基准测试,评估AI代理发现和利用区块链智能合约缺陷的能力。研究显示Claude Opus 4.5等模型可从漏洞中获得460万美元收益。测试2849个合约仅需3476美元成本,发现两个零日漏洞并创造3694美元利润。研究表明AI代理利用安全漏洞的能力快速提升,每1.3个月翻倍增长,强调需要主动采用AI防御技术应对AI攻击威胁。
NVIDIA联合多所高校开发的SpaceTools系统通过双重交互强化学习方法,让AI学会协调使用多种视觉工具进行复杂空间推理。该系统在空间理解基准测试中达到最先进性能,并在真实机器人操作中实现86%成功率,代表了AI从单一功能向工具协调专家的重要转变,为未来更智能实用的AI助手奠定基础。
Spotify年度总结功能回归,在去年AI播客功能遭遇批评后,今年重新专注于用户数据深度分析。新版本引入近十项新功能,包括首个实时多人互动体验"Wrapped Party",最多可邀请9位好友比较听歌数据。此外还新增热门歌曲播放次数显示、互动歌曲测验、听歌年龄分析和听歌俱乐部等功能,让年度总结更具互动性和个性化体验。
这项研究解决了现代智能机器人面临的"行动不稳定"问题,开发出名为TACO的决策优化系统。该系统让机器人在执行任务前生成多个候选方案,然后通过伪计数估计器选择最可靠的行动,就像为机器人配备智能顾问。实验显示,真实环境中机器人成功率平均提升16%,且系统可即插即用无需重新训练,为机器人智能化发展提供了新思路。