李开复旗下 AI 公司零一万物也宣布开源了其 Yi-9B 模型,官方称它是当前 Yi 系列模型中的“理科状元”——代码和数学能力表现最佳;不偏科,中文能力也很强。其全部参数量为 8.8B,有效参数8.31B,默认上下文长度为 4K tokens。Yi-9B(BF 16)在消费级显卡上轻松部署,使用成本较低,开发者友好。
除此之外,早先,包括阿里云对外开源了通义千问7B大模型,Meta开源了大模型Llama 2,谷歌开源大模型Gemma 7B,巨头已经纷纷开源,来加速端侧AI 落地。
“有意见”留言板
@本土化:中国的大模型公司应该更加注重模型的中文表现能力,毕竟主要服务中文人。中文语义的理解远比英文以及字母文字语言更加难理解。但 Yi 的模型评测里并没给出中文的测试评分,此外,从数据上看9B 好像没比别人的7B好多少。到底是不是套壳,开源后大家就好审查代码了。
@Betty:并不是开发,而是完全100% Meta的llama
好文章,需要你的鼓励
微软宣布未来四年将在阿联酋投资152亿美元,包括首次向该国运输最先进的英伟达GPU芯片。美国已授权微软向阿联酋出口英伟达芯片,使该国成为美国出口管制外交的试验场和地区AI影响力锚点。这笔投资包括2023年以来的73亿美元支出和2026-2029年的79亿美元计划投入,涵盖数据中心建设、人才培训和AI基础设施扩展,目标到2027年培训100万当地居民。
德国于利希超级计算中心研究团队通过两千多次实验发现了AI模型训练的神奇规律:无论模型大小和数据量如何变化,最优训练配置总是对应同一个特定数值——输出层算子范数约为128。这一"范数传递"现象为AI训练提供了可靠的理论指导,并揭示了具体的缩放法则,能够显著提高训练效率、降低成本。研究还发现分层学习率优化可带来6%性能提升,为AI训练的民主化做出重要贡献。
OpenAI与亚马逊云服务签署七年380亿美元协议,在微软Azure之外增加另一个超大规模云服务商来满足其不断增长的AI计算需求。该协议将让OpenAI立即获得AWS EC2 UltraServers访问权限,计算能力将在未来七年内扩展至数千万个CPU。AWS还将为OpenAI构建基于英伟达Blackwell芯片的定制基础设施。尽管签署了这一大额协议,OpenAI仍将继续依赖微软Azure作为其主要云计算合作伙伴。
帝国理工学院团队开发的MoME系统将稀疏专家混合机制与多粒度表示学习相结合,创造出能够动态调整处理精度的音视频语音识别框架。该系统如同智能变速箱,可根据资源情况在同一模型中灵活切换不同性能模式,在保持高准确性的同时大幅减少计算开销,特别适合移动设备等资源受限场景。