过去的几年里,PyTorch从1.0到1.13进行了创新和迭代,12月2日,PyTorch 2.0正式发布。与前辈们相比,PyTorch 2.0提供了相同的eager mode和用户体验,同时通过torch.compile增加了一个编译模式,可以在不更改模型代码的情况下对模型进行加速,从而提供更佳的性能和对Dynamic Shapes及分布式运行的支持。经测试,使用2.0可以将训练速度提高38-76%。
由于torch.compile是一个可选特性,因此PyTorch 2.0是完全向后兼容的。此外,2.0系列还会将PyTorch的部分代码从C++移回Python。PyTorch团队表示,PyTorch 2.0是他们向2.x系列迈出的第一步,稳定版预计在2023年3月初发布。
我们的科技留言板“有意见”如下
@码头诗人:AI模型编译速度的提升意味着在实际应用项目又可以节省不少计算资源,能够进一步推动AI降本,推动人工智能在产业中加速普。实际上,国内科技公司也都在开源领域、在机器学习方面投入大量资源搞研发,这也是当下一个颇具潜力的技术高地。
@东北路飞刘海柱:PyTorch2.0把2000个算子用250个基础算子实现,如果想要提升性能,可以针对Aten的750+算子进行融合优化,更加生态环保,也能让厂商对接更加方便。
@算子:PyTorch 2.0最大的更新就是这个torch.compile。好奇编译加速能否良好的支持fsdp的加入?毕竟torch的fsdp不算是一个成熟的算子,而且支持这个事的工作量应该是巨大的。
好文章,需要你的鼓励
滑铁卢大学研究团队开发出LOCKET技术,解决AI服务"按需付费"的商业化难题。该技术通过创新的"适配器融合"方式替代易泄露的密码验证,实现100%有效拒绝未授权功能,同时保持已授权功能性能损失不超过7%。面对恶意攻击的成功率控制在5%以下,为AI服务提供商提供了可行的精细化定价解决方案。
谷歌推出升级版图像生成模型Nano Banana Pro,基于最新Gemini 3语言模型构建。新模型支持更高分辨率(2K/4K)、准确文本渲染、网络搜索功能,并提供专业级图像控制能力,包括摄像角度、场景光照、景深等。虽然质量更高但成本也相应增加,1080p图像费用为0.139美元。模型已集成到Gemini应用、NotebookLM等多个谷歌AI工具中,并通过API向开发者开放。
KAIST研究团队开发出Diffusion-Link技术,通过扩散模型解决AI系统中音频与文字信息的"沟通障碍"。该技术采用轻量级设计,无需外部知识即可将音频特征转换为文字特征,在音频字幕生成任务上取得突破性成果,零样本性能提升52.5%,为多模态AI系统发展开辟新路径。