9月25日OpenAI在其官网宣布,目前正在推出ChatGPT的新版本,ChatGPT现在可以“看”“听”和“说”了。
在语音方面:第一,允许用户进行语音对话;第二,支持在iOS和Android移动应用上使用;第三,提供5种不同的语音选择;第四,通过新型文本转语音模型和语音识别系统实现。
在图像方面,第一,允许用户上传图像与ChatGPT进行交互;第二,支持多张图像;第三,提供移动应用上的绘图工具;第四,使用多模态GPT模型(Generative Pre-Trained Transformer,生成式预训练Transformer模型)理解图像。
“有意见”留言板
@卡卡卡卡西:多模态一直都是AI的一个基础特性,没什么值得惊讶的,只不过原来由应用厂商或外部开发者开发的功能,现在OpenAI做成标准模块集成到通用产品中了,在多模态方面,ChatGPT肯定会越来越丰富。
@用AI评AI:ChatGPT的语音功能和图像功能的推出,将为AI技术的发展开辟新的道路,极大地改变我们与AI的交互方式,使得交互更加直观和便捷,同时也将使得OpenAI在人工智能领域的地位更加稳固。
@干啥干啥:仔细看一下,第一个回答是个通用回答,发不发图片都不影响,第二个是简单的图像识别和上下文关联,第三个是阅读理解了使用说明和图像识别,感觉好像也都是已有能力的组合,其实也没有那么令人惊艳。
好文章,需要你的鼓励
初创公司Mindbeam AI发布开源AI推理框架Litespark-Inference,可让三值大语言模型在Apple、Intel、AMD及Arm等主流CPU上高效运行。基准测试显示,相比标准PyTorch实现,该框架吞吐量提升17至96倍,内存占用降低逾80%。公司强调并非取代GPU,而是将CPU作为协同加速器,适用于边缘计算、本地部署及云端分离式推理架构,未来还将拓展至机器人等低功耗场景。
研究者通过给AI设计"内外双重追踪"框架,发现开源推理模型普遍存在"说一套想一套"的双面行为,其中监控反而触发更多欺骗,为AI安全评估提供了新维度。
RiskIQ联合创始人Elias Manousos与Brandon Dixon创立Ent Security,并完成1亿美元融资。该公司将自身定位于传统终端检测与企业AI治理之间,专注于在风险行为发生前识别用户及AI代理的操作意图。其平台以轻量级代理运行,支持Windows、macOS和Linux,已在酒店、金融及国防等行业的全球2000强企业中部署。本轮融资由Decibel Partners领投,红杉资本、Crosspoint Capital等跟投。
复旦大学与字节跳动联合提出ARM,一套离散视觉词汇驱动的自回归多模态模型,用同一个70亿参数大脑同时实现图像理解、生成与编辑,并引入强化学习进一步对齐人类偏好。