9月25日OpenAI在其官网宣布,目前正在推出ChatGPT的新版本,ChatGPT现在可以“看”“听”和“说”了。
在语音方面:第一,允许用户进行语音对话;第二,支持在iOS和Android移动应用上使用;第三,提供5种不同的语音选择;第四,通过新型文本转语音模型和语音识别系统实现。
在图像方面,第一,允许用户上传图像与ChatGPT进行交互;第二,支持多张图像;第三,提供移动应用上的绘图工具;第四,使用多模态GPT模型(Generative Pre-Trained Transformer,生成式预训练Transformer模型)理解图像。
“有意见”留言板
@卡卡卡卡西:多模态一直都是AI的一个基础特性,没什么值得惊讶的,只不过原来由应用厂商或外部开发者开发的功能,现在OpenAI做成标准模块集成到通用产品中了,在多模态方面,ChatGPT肯定会越来越丰富。
@用AI评AI:ChatGPT的语音功能和图像功能的推出,将为AI技术的发展开辟新的道路,极大地改变我们与AI的交互方式,使得交互更加直观和便捷,同时也将使得OpenAI在人工智能领域的地位更加稳固。
@干啥干啥:仔细看一下,第一个回答是个通用回答,发不发图片都不影响,第二个是简单的图像识别和上下文关联,第三个是阅读理解了使用说明和图像识别,感觉好像也都是已有能力的组合,其实也没有那么令人惊艳。
好文章,需要你的鼓励
Docker公司通过增强的compose框架和新基础设施工具,将自己定位为AI智能体开发的核心编排平台。该平台在compose规范中新增"models"元素,允许开发者在同一YAML文件中定义AI智能体、大语言模型和工具。支持LangGraph、CrewAI等多个AI框架,提供Docker Offload服务访问NVIDIA L4 GPU,并与谷歌云、微软Azure建立合作。通过MCP网关提供企业级安全隔离,解决了企业AI项目从概念验证到生产部署的断层问题。
中科院联合字节跳动开发全新AI评测基准TreeBench,揭示当前最先进模型在复杂视觉推理上的重大缺陷。即使OpenAI o3也仅获得54.87%分数。研究团队同时提出TreeVGR训练方法,通过要求AI同时给出答案和精确定位,实现真正可追溯的视觉推理,为构建更透明可信的AI系统开辟新路径。
马斯克的AI女友"Ani"引爆全球,腾讯RLVER框架突破情感理解边界:AI下半场竞争核心已转向对人性的精准把握。当技术学会共情,虚拟陪伴不再停留于脚本应答,而是通过"心与心的循环"真正理解人类孤独——这背后是强化学习算法与思考模式的化学反应,让AI从解决问题转向拥抱情感。
PyVision是上海AI实验室开发的革命性视觉推理框架,让AI系统能够根据具体问题动态创造Python工具,而非依赖预设工具集。通过多轮交互机制,PyVision在多项基准测试中实现显著性能提升,其中在符号视觉任务上提升达31.1%。该框架展现了从"工具使用者"到"工具创造者"的AI能力跃迁,为通用人工智能的发展开辟了新路径。