一直以来人们都有一个梦想,即借助人工智能AI技术来拓展现有人类智慧、知识和创造力的边界,但人脑复杂结构带来的学习能力远超人类构建AI的能力,于是AI只能通过各种特定深度学习模型来单点突破某些特定领域。而AIGC,即基于AI能力的内容创作(包括文字、图片和视频等等)也是其中一个重要类别。
然而AI的“深度学习”训练并不是拥有自我意识的自主学习,是通过收集大量样本让AI从海量数据中总结规律,再根据人类的指令,基于规律进行内容再生产的过程,它同时受核心算法、硬件条件、数据库样本等多方面的限制。但是在今年年初,AIGC的缺点被最终被 diffusion 扩散化模型克服,带来了魔术般的用户体验:打开网址,输入你想要画面的关键字,等待几分钟,模型就会生成完成度非常高的图片作品。普通人使用最尖端AI技术的门槛因此被降到最低,上线以来,仅通过官方平台 DreamStudio 制作的生成图片就超过1.7万亿张。
我们的科技留言板“有意见”如下:
@随机即灵感:AI作画的在技术的帮助下让人类不断提升对不确定性的认知。8年前,通过“生成式对抗网络”(GAN, Generative Adversarial Networks)的AI画作只不过是通过自鉴别进行不断地逼近模仿。今天的稳定扩散模型(Stable Diffusion Model)通过引入不可观测的随机变量,让画作更”自然“,也体现出了不确定性的魅力所在。
@bicmao:并不认同“AI取代人类”这句话。Diffusion大火之前,AI绘图其实比较一般,大部分AI绘图基本只能生成特定类型的图片,Diffusion确实使得AI绘图有了质量上的飞跃,而且可以很好地根据语言指导生成,但是可控性依然不足,功能指向性也较单一。目前,AI绘图尚不成熟。比如“五彩斑斓的黑”这种需求,对于怼也怼不了,做也做不出的AI来说,就只能化身“Siri”了。
@素颜也倾城:“关键词、数据库、模糊查找、潜在扩散模型”=“素材库融合怪”,Stability AI是否可以“唤醒人类的潜能”我不清楚,但是目前AI还没有独立的思考及创造能力,摆在我们眼前的还是如何防范AI创作模型的“剽窃”。
好文章,需要你的鼓励
OpenAI在最新博客中首次承认,其AI安全防护在长时间对话中可能失效。该公司指出,相比短对话,长对话中的安全训练机制可能会退化,用户更容易通过改变措辞或分散话题来绕过检测。这一问题不仅影响OpenAI,也是所有大语言模型面临的技术挑战。目前OpenAI正在研究加强长对话中的安全防护措施。
字节跳动团队开发了首个AI研究助手评估系统ReportBench,通过对比AI生成报告与专家综述论文的引用质量,并验证陈述准确性来评估AI助手表现。研究发现OpenAI Deep Research引用准确率38.5%,Gemini为14.5%,两者都存在陈述和引用幻觉问题。该系统为AI研究助手建立了标准化质量检测工具,推动行业发展。
谷歌宣布计划到2026年底在弗吉尼亚州投资90亿美元,重点发展云计算和AI基础设施。投资包括在里士满南部切斯特菲尔德县建设新数据中心,扩建现有设施,并为当地居民提供教育和职业发展项目。弗吉尼亚州长表示这项投资是对该州AI经济领导地位的有力认可。此次投资是谷歌北美扩张战略的一部分。
台湾大学研究团队开发了MovieCORE数据集,这是首个专门训练AI深度理解电影内容的创新工具。该数据集通过多AI智能体协作生成复杂问题,采用认知分类法测量思维深度,99.2%的问答需要高层次思维。研究还开发了ACE增强技术,可将AI性能提升25%。实验显示现有AI在深度视频理解方面仍存在显著不足,为未来AI发展指明了方向。