9月25日OpenAI在其官网宣布,目前正在推出ChatGPT的新版本,ChatGPT现在可以“看”“听”和“说”了。
在语音方面:第一,允许用户进行语音对话;第二,支持在iOS和Android移动应用上使用;第三,提供5种不同的语音选择;第四,通过新型文本转语音模型和语音识别系统实现。
在图像方面,第一,允许用户上传图像与ChatGPT进行交互;第二,支持多张图像;第三,提供移动应用上的绘图工具;第四,使用多模态GPT模型(Generative Pre-Trained Transformer,生成式预训练Transformer模型)理解图像。
“有意见”留言板
@卡卡卡卡西:多模态一直都是AI的一个基础特性,没什么值得惊讶的,只不过原来由应用厂商或外部开发者开发的功能,现在OpenAI做成标准模块集成到通用产品中了,在多模态方面,ChatGPT肯定会越来越丰富。
@用AI评AI:ChatGPT的语音功能和图像功能的推出,将为AI技术的发展开辟新的道路,极大地改变我们与AI的交互方式,使得交互更加直观和便捷,同时也将使得OpenAI在人工智能领域的地位更加稳固。
@干啥干啥:仔细看一下,第一个回答是个通用回答,发不发图片都不影响,第二个是简单的图像识别和上下文关联,第三个是阅读理解了使用说明和图像识别,感觉好像也都是已有能力的组合,其实也没有那么令人惊艳。
好文章,需要你的鼓励
随着人工智能和高性能计算持续推动需求增长,数据中心设计正以同样惊人的速度演进。曾经的高密度机架已成为标准配置,冷却系统在数月而非数年内完成重新设计,项目在各地区的规模和复杂性不断提升。全球工程设计咨询公司Black & White Engineering指出,液冷成为标准配置、极端机架密度管理、工业化规模交付、电网约束下的电力创新、AI驱动运营设计以及可持续性成为核心设计原则,将成为2026年塑造数据中心设计、建设和运营的六大关键趋势。
这项由ByteDance Seed、香港科技大学等机构联合完成的研究提出了"轨迹场"这一创新的4D视频表示方法。研究团队开发的Trace Anything系统能够在单次前向传递中为视频中的每个像素预测连续的三维轨迹,无需光流估计或迭代优化。通过构建大规模合成数据平台和精心设计的训练方案,该方法在轨迹估计基准上实现了最先进性能,同时推理速度比竞争方法快10倍以上,并展现了运动预测、时空融合等多种涌现能力。
Snowflake本周推送的一次更新导致全球范围内的"重大故障",用户长达13小时无法查询数据、文件导入失败并收到错误信息。初步调查显示,最新版本引入了不向后兼容的数据库架构更新,导致版本不匹配错误。此次故障影响了全球23个区域中的10个,包括美国、欧洲和亚洲多个数据中心。这是Snowflake一周内第二次发生事故。
伊斯法罕大学研究团队通过分析Google Play商店21款AI教育应用的用户评论,发现作业辅导类应用获得超80%正面评价,而语言学习和管理系统类应用表现较差。用户赞赏AI工具的快速响应和个性化指导,但抱怨收费过高、准确性不稳定等问题。研究建议开发者关注自适应个性化,政策制定者建立相关规范,未来发展方向为混合AI-人类模型。