一直以来人们都有一个梦想,即借助人工智能AI技术来拓展现有人类智慧、知识和创造力的边界,但人脑复杂结构带来的学习能力远超人类构建AI的能力,于是AI只能通过各种特定深度学习模型来单点突破某些特定领域。而AIGC,即基于AI能力的内容创作(包括文字、图片和视频等等)也是其中一个重要类别。
然而AI的“深度学习”训练并不是拥有自我意识的自主学习,是通过收集大量样本让AI从海量数据中总结规律,再根据人类的指令,基于规律进行内容再生产的过程,它同时受核心算法、硬件条件、数据库样本等多方面的限制。但是在今年年初,AIGC的缺点被最终被 diffusion 扩散化模型克服,带来了魔术般的用户体验:打开网址,输入你想要画面的关键字,等待几分钟,模型就会生成完成度非常高的图片作品。普通人使用最尖端AI技术的门槛因此被降到最低,上线以来,仅通过官方平台 DreamStudio 制作的生成图片就超过1.7万亿张。
我们的科技留言板“有意见”如下:
@随机即灵感:AI作画的在技术的帮助下让人类不断提升对不确定性的认知。8年前,通过“生成式对抗网络”(GAN, Generative Adversarial Networks)的AI画作只不过是通过自鉴别进行不断地逼近模仿。今天的稳定扩散模型(Stable Diffusion Model)通过引入不可观测的随机变量,让画作更”自然“,也体现出了不确定性的魅力所在。
@bicmao:并不认同“AI取代人类”这句话。Diffusion大火之前,AI绘图其实比较一般,大部分AI绘图基本只能生成特定类型的图片,Diffusion确实使得AI绘图有了质量上的飞跃,而且可以很好地根据语言指导生成,但是可控性依然不足,功能指向性也较单一。目前,AI绘图尚不成熟。比如“五彩斑斓的黑”这种需求,对于怼也怼不了,做也做不出的AI来说,就只能化身“Siri”了。
@素颜也倾城:“关键词、数据库、模糊查找、潜在扩散模型”=“素材库融合怪”,Stability AI是否可以“唤醒人类的潜能”我不清楚,但是目前AI还没有独立的思考及创造能力,摆在我们眼前的还是如何防范AI创作模型的“剽窃”。
好文章,需要你的鼓励
邻里社交应用Nextdoor推出重新设计版本,新增本地新闻、实时警报和名为"Faves"的AI功能,用于发现本地商户和地点。该应用与3500家本地出版商合作提供新闻内容,通过Samdesk和Weather.com提供天气、交通、停电等实时警报。Faves功能利用15年邻里对话数据训练的大语言模型,为用户提供本地化AI推荐服务,帮助用户找到最佳餐厅、徒步地点等本地信息。
Skywork AI推出的第二代多模态推理模型R1V2,通过创新的混合强化学习方法,成功解决了AI"慢思考"策略在视觉推理中的挑战。该模型在保持强大推理能力的同时有效控制视觉幻觉,在多项权威测试中超越同类开源模型,某些指标甚至媲美商业产品,为开源AI发展树立了新标杆。
英国生物银行完成了世界上最大规模的全身成像项目,收集了10万名志愿者的超过10亿次扫描数据,用于研究人体衰老和疾病过程。该项目历时11年,每次扫描耗时5小时,投资6200万英镑。目前已有8万人的成像数据供全球研究人员使用,剩余数据将于年底前发布。项目已开发出能预测38种常见疾病的AI工具,并在心脏病、痴呆症和癌症诊断方面取得突破。
这项由北京大学等多所高校联合完成的研究,首次对OpenAI GPT-4o的图像生成能力进行了全面评估。研究团队设计了名为GPT-ImgEval的综合测试体系,从文本转图像、图像编辑和知识驱动创作三个维度评估GPT-4o,发现其在所有测试中都显著超越现有方法。研究还通过技术分析推断GPT-4o采用了自回归与扩散相结合的混合架构,并发现其生成图像仍可被现有检测工具有效识别,为AI图像生成领域提供了重要的评估基准和技术洞察。