神经风格迁移的实现依赖于卷积神经网络(CNN)的特性提取能力。通过盘算内容丧失和风格丧失,模型可以或许优化生成图像,使其既接近内容图像的内容特性,又接近风格图像的艺术风格。这一技术的出现,不但让普通人也能轻松创作出具有艺术感的作品,还为AI绘画领域提供了新的研究方向。
在神经风格迁移的背后,丧失函数的计划起到了关键作用。内容丧失和风格丧失的结合,使得生成图像可以或许在保存内容的同时,融入新的艺术风格。这种丧失函数的计划思想,不但在神经风格迁移中得到了广泛应用,还为后续的AI绘画和生成模型提供了紧张的理论基础。
内容丧失公式如下所示:
L c o n t e n t ( C , G ) = 1 2 ∑ i , j ( F i , j C − F i , j G ) 2 L_{content}(C, G) = \frac{1}{2} \sum_{i,j} (F_{i,j}^C - F_{i,j}^G)^2 Lcontent(C,G)=21i,j∑(Fi,jC−Fi,jG)2
其中 F i , j C F_{i,j}^C Fi,jC和 F i , j G F_{i,j}^G Fi,jG分别代表内容图像和生成图像在特定层上的特性图。
风格丧失公式如下所示:
L s t y l e ( S , G ) = ∑ l w l E l L_{style}(S, G) = \sum_{l} w_l E_l Lstyle(S,G)=l∑wlEl
其中 E l E_l El代表第 l l l层的风格丧失,定义为生成图像和风格图像的格拉姆矩阵; w l w_l wl则代表第 l l l层的参数权重。
格拉姆矩阵定义如下:
G i , j l = ∑ k F i , k l F j , k l G_{i,j}^l = \sum_{k} F_{i,k}^l F_{j,k}^l Gi,jl=k∑Fi,klFj,kl
其中 F i , k l F_{i,k}^l Fi,kl是第 l l l层的特性图。
最后我们再来看一下Neural Style Transfer算法的总丧失:
L t o t a l = α L c o n t e n t + β L s t y l e + γ L T V L_{total} = \alpha L_{content} + \beta L_{style} + \gamma L_{TV} Ltotal=αLcontent+βLstyle+γLTV
其中 α \alpha α 、 β \beta β和 γ \gamma γ是权重系数,用于平衡不同的丧失。
Neural Style Transfer算法将传统深度学习技术与艺术举行了融合,开发了图像风格迁移的先河。
总的来说,从2012年的猫脸生成实验,到2015年的DeepDream项目,再从2014年GAN的提出和2016年神经风格迁移的发布,AI绘画领域经历了一次次技术突破和思想革新。这些技术的发展不但让盘算机具备了艺术创作的能力,还为人类与盘算机的协作开发了新的大概性。未来,随着技术的不断进步,AI绘画有望在艺术领域掀起更大的海潮,甚至重新定义艺术的界限。
2.2 AI绘画探索期
自从2014年Ian Goodfellow提出生成对抗网络(GAN)以来,这项技术迅速成为AI生成领域的核心驱动力。GAN的独特对抗性训练机制不但大幅提升了生成图像的质量,还为AI绘画的多元应用开发了广阔的大概性。从艺术创作到图像修复,从风格迁移到超分辨率重建,GAN的影响力几乎渗出到了AI绘画的每一个角落。
2018年,法国艺术团体Obvious通过GAN模型创作的《埃德蒙德·贝拉米的肖像》(Portrait of Edmond de Belamy)在佳士得拍卖会上以43.25万美元的高价成交,远超其预估价的40倍。这一事件不但让GAN模型名声大噪,也标记取AI绘画正式进入主流艺术市场。这幅作品由GAN生成,签名部门甚至以算法的情势呈现(“min G max D x [log (D(x))] + z [log(1 - D(G(z)))]”),象征着AI与艺术的深度融合。这一里程碑事件拉开了AI绘画探索期的序幕,也让GAN成为这一阶段的主流模型。
StyleGAN是由NVIDIA的研究团队提出的一种生成对抗网络模型(A Style-Based Generator Architecture for Generative Adversarial Networks)。
StyleGAN的重要创新之一是将潜在空间 Z \mathcal{Z} Z转换为一个中间潜在空间 W \mathcal{W} W ,通过一个映射网络 f f f将潜在向量 z z z映射到 w w w:
w = f ( z ) w = f(z) w=f(z)
这个中间潜在空间 W \mathcal{W} W允许我们更好的控制和操纵图像的生成过程。映射网络 f f f是一个全毗连神经网络,用于增长潜在向量的机动性和表达能力。
同时StyleGAN使用AdaIN(Adaptive Instance Normalization, AdaIN)层来引入风格控制。AdaIN层根据风格向量 w w w动态调整特性图的归一化参数:
AdaIN ( x , y ) = y scale ⋅ x − μ ( x ) σ ( x ) + y bias \text{AdaIN}(x, y) = y_{\text{scale}} \cdot \frac{x - \mu(x)}{\sigma(x)} + y_{\text{bias}} AdaIN(x,y)=yscale⋅σ(x)x−μ(x)+ybias
其中, x x x是输入特性图, y scale y_{\text{scale}} yscale和 y bias y_{\text{bias}} ybias是从风格向量 w w w生成的缩放和偏移参数, μ ( x ) \mu(x) μ(x)和 σ ( x ) \sigma(x) σ(x)分别是输入特性图的均值和标准差。
StyleGAN的生成器在每一层使用不同的风格向量 w w w控制特性图的生成,这种逐层控制允许在不同标准上操纵生成图像的细节和全局特性。这样一来,StyleGAN就可以生成具有同等性和多样性兼备的图像。
StyleGAN的生成器架构与原生的GAN生成器有所不同。其生成过程可以分为以下几个部门:
映射网络:映射网络将潜在向量 z z z映射到中间潜在空间 w w w,这个映射过程通过多少全毗连层实现。
合成网络:合成网络使用由映射网络生成的风格向量 w w w控制特性图的生成过程。特性图从一个常数输入开始,通过一系列卷积层和AdaIN层逐步上采样和生成图像。
【一】OpenAI发布Sora:Video generation models as world simulators
2024年2月15日,OpenAI重磅发布了“天下模型”——Sora,一个可以或许生成60秒视频的AI视频大模型。
Rocky也在连续撰写Sora等AI视频大模型核心基础知识全维度解析文章,盼望大家可以或许多多点赞:
深入浅出完整解析Sora等AI视频大模型核心基础知识
Rocky认为随着AIGC技术海潮的到来,AI已经不再是遥不可及的科技,而是我们每个人都可以到场的AI技术⾰新。它正在走进生活,为更多人带来前所未有的创作和表达时机。从AI绘画、AI视频、大模型、AI多模态、数字人等领域的连续发展可以看出,AIGC技术正逐渐渗出到各行各业,未来定会广泛应用于各行各业。同时围绕着AIGC的开源和闭源生态都在繁荣发展,越来越多的AIGC工具、工作流和产物赋能各类创意领域,形成“传统业务+AIGC”的新模式。
也正因此,AIGC时代带来的不但是一次技术革新,更是头脑方式的大幅创新。掌握AIGC技术不但是为了追赶科技的步调,更是为我们提供头脑突破和创新的源泉。我们每个人在社会中的分工不同,所以我们必要拥抱和学习AIGC技术成为“AI绘画艺术家”,进而让AIGC技术提⾼我们的工作效率、开发我们的创新灵感、增强个人综合能⼒,更好的与AI举行“协同合作”。
不论我们是AI行业从业者、艺术创作者还是AIGC爱好者,只要拥抱AIGC科技海潮,都可以找到属于自己的先发上风,“先行者的红利”会为我们带来前所未有的机遇。 对AI从业者来说,AIGC提供了一个全新的技术发展领域。AI绘画等生成模型背后涉及的诸多关键技术,可以资助AI从业者拓展新的AI应用场景,如图像生成、图像编辑、内容计划甚至虚拟情况构建。不但如此,AIGC技术的快速发展还推动了AI应用工具和AI产物框架的创新,掌握这些工具可以或许让AI从业者更快实现创意并加速商业化落地。从而在竞争猛烈的AI行业中,提升市场核心竞争力。 对于传统艺术家来说,AIGC技术是一个充满大概性的领域。通过学习AIGC技术,艺术家们可以利用这些技术举行精细化创作,并以此为基础举行更加精细化的创作与修改,从而进一步拓展艺术表现情势。AIGC技术可以生成抽象艺术、超实际主义风格的作品,甚至将盘算机生成的图像与传统绘画本领结合,赋予艺术家更多大概性。借助AIGC技术,传统艺术家们不但可以丰富创作手法,还可以通过AI生成互动性和沉醉感更强的作品。同时通过深入学习这些技术,传统艺术家们可以或许在作品中融入技术特性,建立独特的个人风格,甚至在艺术界中开发新领域。AIGC技术不但丰富了创作手段,也为传统艺术家们提供了与观众互动的新方式。 对于AIGC爱好者来说,学习AIGC技术是理解AI生成内容魅力的最佳途径。通过掌握AIGC的基本概念和应用工具,爱好者们不但可以生成图像、文本、视频、音乐等多种内容,还可以或许到场到AIGC社区的讨论和发展中。在AIGC时代,爱好者们不但可以作为消费者欣赏AI创作的作品,更是AI内容的创造者,可以或许体验到亲自到场生成过程的爱好,这无疑让AIGC技术可以或许快速破圈,进一步加速了AIGC时代的发展步调。
总的来说,我们无论是AI从业者、艺术家还是爱好者,学习AIGC技术能资助我们提升艺术观赏⼒、创意咀嚼以及驳倒性头脑,从而提升我们的综合能力。AIGC技术可以作为工作和生活中的“辅助驾驶员”,为我们提供新的头脑方式、丰富的创意工具以及强盛的生产力。
在2023年GTC大会上,NVIDIA首创人黄仁勋提出了一个很故意思的观点,他认为生成式AI是一种新型盘算机,我们可以用自然语言举行“编程”,并将想法变成实际。任何人都可以下令盘算机来解决问题。这个观点进一步突显了AIGC的潜力,Rocky也相信,AIGC将成为未来互联网的紧张交互界面,它不但加速了我们与AI技术的融合,更资助我们从各自的专业领域出发,探索无限的大概。 Rocky相信AIGC时代的发展速率不会让我们失望,掌握AIGC知识无疑将为我们带来明显的先发上风,无论是探索新的AI应用场景还是通过AI工具创作作品。那么让自己变成独立思考、深度思考、弹性思考、思考质量极佳以及对事物本质理解深刻的人,才可以或许从AIGC时代中获取更多高代价的回馈,在未来的工作情况中掌握更多主动权。就像当我们可以创造任何想要的东西时,我们能多准确地表达“那是什么”的能力就变得尤为紧张,如果能再有灵光一现的好奇心和想象力,那就会有无限的时机等候我们去实践与创造。
在AIGC时代中,AI从业者要了解如何利用AIGC工具有效地创造代价,而不只是两耳不闻窗外事的“炼丹师”。以数据驱动和大模型为中心的计谋已经成为AI行业的局势所趋,因此掌握如何创建一个快速迭代、实时反馈的工程闭环尤为紧张。正如OpenAI首席科学家Ilya Sutskever所说,规模越大,潜力越大(“I had a very strong belief that bigger is better, and a goal at OpenAI was to scale.”)。AI从业者若能从AIGC工具中不断学习,将会在这个时代保持领先。
同时,在AIGC时代的转型和入局之路上,我们不妨对自身提出几个问题。未来能否像2017年那样,敏锐地把握住雷同于Transformer的关键技术?如果回到2018年,当GPT系列模型尚未大获成功时,如何判断其潜力? 我们是否有勇气在不确定性中捉住AIGC时代的下一个重大突破?通过对这些问题的思考,我们可以更加清晰地认知AIGC时代未来的发展方向,进一步提升个人在AIGC时代的竞争力。 在AIGC时代,成为AI绘画艺术家不但仅是AIGC技术的学习,更是一次自我提升的路程。无论我们是AI从业者、传统艺术家,还是AIGC爱好者,掌握这项技术都将带来全新的视角和无数的时机。AIGC不但是未来的交互界面,更是引发创新、探索未知的工具。这个充满潜力的领域接待所有有爱好的人,未来属于那些愿意拥抱技术、大胆探索的开发者。
6. AI绘画领域研究的热点
风格迁移的精细化:风格迁移是 AI 绘画的紧张应用之一,可以或许将一种艺术风格应用到另一幅图像上。未来的研究方向是实现更精细化的风格迁移,使生成的绘画作品不但可以或许保存原图像的内容和布局,还可以或许更准确地表现目标风格的特点和韵味。例如,在模拟某位艺术家的风格时,可以或许捕捉到其独特的笔触、色彩运用和构图方式等。
【四】数据质量与多样性提升层面
1.高质量数据集建立:数据是 AI 绘画的基础,高质量的数据集对于提高模型的性能和生成图像的质量至关紧张。研究职员致力于收集、整理和标注更多高质量的图像数据,包罗各种风格、主题、题材的绘画作品,以及真实天下的图像数据。同时,对数据举行清洗和预处理,去除噪声和无关信息,提高数据的质量和可靠性。
数据增强技术:为了增长数据的多样性,数据增强技术被广泛应用于 AI 绘画。通过对现有数据举行随机变换,如旋转、翻转、裁剪、颜色调整等,可以生成更多的训练样本,提高模型的泛化能力和鲁棒性。别的,还可以通过生成对抗网络等技术生成新的图像数据,进一步扩充数据集。
跨领域数据融合:将其他领域的数据与绘画数据举行融合,可以或许为 AI 绘画提供更多的信息和灵感。例如,将自然科学、历史文化、文学作品等领域的数据与绘画数据相结合,可以创造出具有更丰富内涵和独特视角的绘画作品。
【五】与其他技术的结合层面
与盘算机视觉技术的结合:盘算机视觉技术在图像识别、目标检测、场景理解等方面取得了明显的进展。将这些技术与 AI 绘画相结合,可以为绘画生成提供更准确的图像分析和理解能力,从而更好地指导绘画的创作过程。例如,通过对输入的文本描述举行图像分析和理解,可以或许更准确地提取关键信息,生成更符合要求的绘画作品。
与自然语言处理技术的结合:自然语言处理技术可以或许理解和处理人类的语言文本,将其与 AI 绘画相结合,可以实现图像与文本的更紧密结合。例如,通过对用户输入的文本描述举行语义分析和理解,可以或许更准确地把握用户的需求和意图,生成更符合文本描述的绘画作品。同时,还可以通过文本生成技术为绘画作品添加标题、解释等文字信息,增强作品的表现力和转达能力。
与虚拟实际和增强实际技术的结合:虚拟实际和增强实际技术可以或许为用户提供沉醉式的体验,将其与 AI 绘画相结合,可以创造出更加生动、传神的艺术体验。例如,通过虚拟实际技术,用户可以身临其田地进入到 AI 绘画生成的虚拟场景中,感受艺术的魅力;通过增强实际技术,用户可以将 AI 绘画作品与实际天下举行融合,创造出独特的艺术效果。
在AI绘画领域,生成高质量图像的同时,提升模型的作画性能同样是一个至关紧张的研究方向。当前,AI绘画大模型生成一张图片通常必要10秒左右的时间,这与实时生成的期望还有肯定隔断。因此,研究者们正在积极探索各种优化方法,以明显提升AI绘画模型的作画效率。下面,Rocky将为大家具体介绍几种经典的性能优化算法,并分析它们的技术原理和实际效果。
起首我们介绍一下Consistency Model,其是在扩散模型(Diffusion Model)的基础上提出的一种优化方法。它的核心思想是通过引入同等性约束,明显减少生成图像所需的采样步数。
Consistency Model要求从某个样本到噪声的加噪轨迹上的每一个点,都可以通过一个函数
映射回这条轨迹的出发点。也就是说,同一条轨迹上的所有点经过 f f f 映射后,效果都是同一个点。在微调后的Consistency Model中,只需从噪声中采样一个点,送入函数 f f f,即可生成对应的数据样本。这种单步生成模式大幅提升了生成效率。
因此,与传统扩散模型通常必要的30-50步采样相比,Consistency Model仅需3-5步即可生成高质量图像。同时,Consistency Model支持也多步生成模式,用户可以根据需求在生成速率和质量之间举行权衡。
Consistency Model的提出为AI绘画模型的性能优化提供了全新的思路。通过优化采样算法,研究者们可以或许在保证生成质量的同时,明显提升模型的作画效率。这一方法不但实用于图像生成,还可以扩展到视频生成等领域。