英国人工智能公司DeepMind的一项最新研究发现,人工智能算法或能提出在人群中分配资源的新机制。
研究人员先让数千名志愿者4人一组参与投资博弈。玩家一开始会拿到不同数额的钱,必须决定贡献多少来发展一个公共基金池,并最终获得一部分作为回报,过程会涉及反复决定保留一笔货币捐赠,还是与其他玩家分享,获得潜在的集体利益。研究人员训练人工智能系统寻找一种向个人重新分配资金的政策,最终该系统制定的政策相比其他人类玩家制定的政策,收获了更多的选票。
我们的科技留言板“有意见”如下
@华强萨日朗:博弈论中有个概念叫“纳什均衡”,指能够达到所有玩家期望收益最大值的策略组合。其理论提出者约翰·纳什是历史上著名的数学家,纳什均衡理论奠定了现代主流博弈理论和经济理论的根本基础。而AI仅在通过向4000人的学习后就能总结出纳什均衡的规律,学习能力和速度快到令人发指,AI正在逐步控制地球的事实昭然若揭!
@黑咕隆咚:由AI设计经济体制,确实出乎意料,不过人工智能,“人工”在先,“智能”在后,智能离不开人为。人工智能永远不应该支配政策,但这样的工具可能会为人类决策者带来新的想法,未来人类和机器之间最有可能的分工模式是混合智能。
@媒体搬运工/@模糊:看内容很“惊悚”,AI居然可以做经济决策。人工智能给经济理论研究带来了一种实验方法与思路,但是我们知道传统经济学是强调理性经济人假设,现实中的人却是非理性的,并不像数学那样清晰可定义并保持不变。所以AI制定的经济政策在真实世界可行吗?
好文章,需要你的鼓励
卢森堡大学研究团队开发的RLDP框架首次将强化学习应用于差分隐私优化,创造性地解决了AI训练中隐私保护与模型效果的矛盾。该方法如同智能教练,能动态调整隐私保护策略,在四种语言模型上实现平均5.6%的性能提升和71%的训练时间缩短,同时增强了抗隐私攻击能力,为敏感数据的AI应用开辟了新路径。
这项由北京大学人工智能研究院完成的研究,首次从数据压缩理论角度揭示了大型语言模型存在"弹性"现象——即使经过精心安全对齐,模型仍倾向于保持预训练时的行为分布。
腾讯混元团队联合北京大学提出MixGRPO技术,通过混合ODE-SDE采样策略和滑动窗口机制,将AI图像生成训练效率提升50%-71%,同时在多项人类偏好评估指标上超越现有方法。该技术采用"从难到易"的渐进优化策略,专注于图像生成早期阶段的重点优化,并引入高阶求解器进一步加速训练过程,为AI图像生成的产业化应用提供了更高效可行的解决方案。