未来你看到的画家可能不是在画画,而是在写文字。
最近,谷歌研究出了一个文字-图像生成模型DreamBooth,用户只需上传3-5张某物体的照片,再用文字描述想要生成的背景、动作或表情,就能生成相应的图片,且动作表情都能达到“以假乱真”的程度。
DreamBooth可以在保留物体关键特征的前提下,完成换景、加滤镜、修改外观和艺术渲染等任务。DreamBooth在Imagen的基础上做了调整,它会给物体加上一个独特的“标识符”,这个唯一的标识符就可以用来合成该物体在不同场景中的逼真图像。
我们的科技留言板“有意见”如下
@媒体搬运工:这就是paper级的美图秀秀,AI在尝试从爬行到直立行走的越迁,只是这种过程能不能实现类似猿到人的进化,也许时间才能证明。
@大内密探:DreamBooth用了微调的思路,模型会通过独特标识符来学习指定物体的个性化细节,再加上模型在这一物体大类中学到的共性,从而生成合理又有个性的照片。
@有想法的向日葵:DreamBooth的换景、指定动作、表情服饰、更迭风格等功能,能让不会PS的人也能成“大神”了。不久的将来,朋友圈里就分不清哪些是真的,哪些是假的。
好文章,需要你的鼓励
今天讲的出海案例是科创新源,这家高分子材料与液冷板厂商拟用 2.45 亿元收购兆科控制权,并拟通过新加坡智科整合越南制造与海外经营资产。
香港理工大学提出"光学推理",将AI推理步骤渲染为图片代替文字,在五款顶级AI模型测试中平均节省28%令牌,效率近两倍。
苹果高管在最新采访中详细介绍了iOS 27照片应用的三项AI新功能。"空间重构"可在拍摄后调整照片构图视角,仅在视角偏移处生成新内容;"扩展"功能允许用户向外延伸画面最多25%,且每张照片仅限使用一次,防止过度修改;"清除"功能则升级为可处理更复杂的对象。苹果强调,所有功能的核心目标是在保留原始记忆真实感的同时,帮助用户完善影像效果。
卡内基梅隆大学等机构发现,16%的主流AI评测任务存在可被绕过的漏洞,并提出三智能体自动防御方案,将KernelBench攻击成功率从76%降至0%。