在理解、推理、数学等领域,大模型都不是肉眼可见的速度进化,而是像坐上火箭一样。最新的消息显示Anthropic升级大模型Claude3。报告说,Claude 3系列模型在推理、数学、编码、多语言理解和视觉方面,都树立了新的行业基准!其中Claude3的Opus模型,已经全面超越GPT4。特别是在复杂的推理任务上,Claude3可以说是全面吊打GPT-4。
虽然技术报告的指标可能并不能反应真实能力,但是通过数据训练和迭代,真实能力超过指标也是瞬间的事情。
“有意见”留言板
@不倒翁:大模型进化真是一天一个样,按照演示来看,Claude3进化最大的,就是推理,就是逻辑。目前初中的物理、化学和数学等理科题基本都秒解,而且准确率吊打很多学生了,关键是用不了多久,可能高中题就搞定,只要训练的足够多。
@周一见:大语言模型的技术竞争日益激烈,每一代都有显著进步。听说Claude 3的Opus模型已接近人类理解水平,希望能对话看看它能否为我们带来更加智能和高效的服务。
好文章,需要你的鼓励
OpenAI和微软宣布签署一项非约束性谅解备忘录,修订双方合作关系。随着两家公司在AI市场竞争客户并寻求新的基础设施合作伙伴,其关系日趋复杂。该协议涉及OpenAI从非营利组织向营利实体的重组计划,需要微软这一最大投资者的批准。双方表示将积极制定最终合同条款,共同致力于为所有人提供最佳AI工具。
中山大学团队针对OpenAI O1等长思考推理模型存在的"长度不和谐"问题,提出了O1-Pruner优化方法。该方法通过长度-和谐奖励机制和强化学习训练,成功将模型推理长度缩短30-40%,同时保持甚至提升准确率,显著降低了推理时间和计算成本,为高效AI推理提供了新的解决方案。
中国科技企业发布了名为R1的人形机器人,直接对标特斯拉的Optimus机器人产品。这款新型机器人代表了中国在人工智能和机器人技术领域的最新突破,展现出与国际巨头竞争的实力。R1机器人的推出标志着全球人形机器人市场竞争进一步加剧。
上海AI实验室研究团队深入调查了12种先进视觉语言模型在自动驾驶场景中的真实表现,发现这些AI系统经常在缺乏真实视觉理解的情况下生成看似合理的驾驶解释。通过DriveBench测试平台的全面评估,研究揭示了现有评估方法的重大缺陷,并为开发更可靠的AI驾驶系统提供了重要指导。