论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
人工智能
›
人工智能
›
Datawhale X 魔搭 AI夏令营第四期 魔搭-AIGC方向 task02 ...
Datawhale X 魔搭 AI夏令营第四期 魔搭-AIGC方向 task02笔记
千千梦丶琪
论坛元老
|
2024-9-21 08:40:40
|
显示全部楼层
|
阅读模式
楼主
主题
1865
|
帖子
1865
|
积分
5595
一、探探前沿:了解一下 AI生图技术 的本事&范围
1. 为什么要了解AI生图前沿?
AIGC(AI-Generated Content)是通过人工智能技术主动天生内容的生产方式,很早就有专家指出,AIGC将是将来人工智能的重点方向,也将改造相关行业和领域生产内容的方式。
AI生图则是其中最早被大众所熟知并广泛被承认的AIGC领域,首先我们来看一个新闻(
原文入口
)——
AI天生图片的快速发展,使诸多领域措手不及,如:拍照、美术等艺术领域正在面对前所未有的颠覆。
我们所认为的“有图有真相”,甚至理解的实际也将不绝被挑战...
插入一段小知识,提示大家鉴戒Deepfake技术
Deepfake是一种使用人工智能技术天生的伪造媒体,特别是视频和音频,它们看起来或听起来非常真实,但实际上是由盘算机天生的。这种技术通常涉及到深度学习算法,特别是天生对抗网络(GANs),它们能够学习真实数据的特征,并天生新的、逼真的数据。
Deepfake技术固然在多个领域显现出其创新潜力,但其滥用也带来了一系列严峻的危害。在政治领域,Deepfake大概被用来制造假新闻或利用舆论,影响选举结果和政治稳定。经济上,它大概粉碎企业形象,引发市场恐慌,甚至利用股市。法律体系也面对挑战,因为伪造的证据大概误导司法判断。此外,深度伪造技术还大概加剧身份偷窃的风险,成为可怕分子的新工具,煽惑暴力和社会动荡,威胁国家安全。
对全部人来说,定期关注AI生图的最新本事情况都非常重要:
对于
普通人
来说,可以制止被常见的AI生图场景欺骗,偶尔也可以通过相关工具绘图
对于
创作者
来说,通过AI生图的工具可以提效,快速制作自己所必要的内容
对于
技术人
来说,了解AI生图的本事的玩法,可以更好地针对自己的业务举行开发和使用,甚至攻克难题开发更实用的工具
2. 再从工具视角回顾一下AI生图的历史
最早的AI生图可追溯到
20世纪70年代
,当时由艺术家哈罗德·科恩(Harold Cohen)发明AARON,可通过机器臂输出作画。
现代的AI生图模子大多基于深度神经网络基础上训练,最早可追溯到
2012年
吴恩达训练出的能天生“猫脸”的模子。
它使用
卷积神经网络(CNN)
训练,证明确深度学习模子能够学习到图像的复杂特征。
2015年
,谷歌推出了
“深梦”(Deep Dream)
图像天生工具,类似一个高级滤镜,可以基于给定的图片天生梦幻版图片——
2021 年 1 月
OpenAI 推出DALL-E模子(一个深度学习算法模子,是GPT-3 语言处理模子的一个衍生版本),能直接从文本提示“按需创造”风格多样的图形设计——
在当时,就已经被一些媒体评价为:“ 秒杀50%的设计行业打工人应该是没有问题的,而且是质量和速度双重意义上的
“秒杀”
”。
一般来说,
AI生图模子
属于
多模态机器学习模子
,通过海量的图库和文本描述的深度神经网络学习,最终的目标是
可以根据输入的指示
(不管是文本还是图片还是任何)
天生符合语义的图片
。
插入一个小八卦
AI生图在很长一段时间很难被人们所广泛采取,一方面是天生的内容没有可用的生产场景,还有很大程度大概是由于
“可怕谷效应”
——
其核心观点是:随着仿真物(如机器人、玩偶等)模拟真实性程度的变化,人们对其亲和力也会产生变化,一般规律是亲和力随着仿真程度增高而增高,但当仿真程度达到一个临界点时,人的亲和反应会陡然跌入谷底,忽然产生排斥、恐惧、狐疑等负面心理。
通过学习大量画家的作品,
AI生图模子
往往可以照猫画虎绘制出类似的画作,在
2022年8月
,
AI生图真正走进了大众的视野,让各个领域无法忽视
。
当时让AI生图破圈的是
AI绘画作品《太空歌剧院》
,该作品在美国科罗拉多州举办的新兴数字艺术家竞赛中获得了比赛“数字艺术/数字修饰照片”种别一等奖,引起了当时“艺术家们 Not Happy”的社会舆论。
3. AI生图的难点和挑战还有哪些?
往前一年,AI绘画还不会画“手”——
也因为当时这个情况,产生了许多解决这个问题的相关技术,如:给图片里的人手打上标记,像把手掌、拇指、食指啥的,都给清楚地标出来;
我们现在还可以经常在各类自媒体的文章中看到“AI翻车”的案例,那些往往也是必要解决的难点,某些“翻车”征象,也许在业界已有相关的解决方案。
通俗来说,
AI生图模子
获得图片天生本事重要是通过 学习
图片描述
以及
图片特征
,尝试将这两者举行一一对应,存储在自己的记忆里。
在我们必要的时间,通过输入的笔墨,复现出来对应的图片特征,从而天生了我们必要的图片。
关于
AI是否真正理解了图片背后所代表的天下的特征,是否理解了图片的寄义
,这个不绝是科研界和产业界存在争议的话题,我们唯一可以确定的是——
由于每个模子用于训练的数据是有限的且不一定相同的,它们能匹配的描述和特征也是有限的,所以在风格、具体事物上,不同的模子会有很大的天生差异,且大概存在诸多与实际不符的情况。
而这些问题,就是业界和科研界持续在想办法解决的问题。
目前已经应用AI生图的行业重要有电商、游戏、设计等,大家感兴趣可以去查察相关研报,下图是在微信公众号搜索的结果——
在大部分生图场景下,我们大概经常会觉得图片存在
“AI味”
,这很长一段时间也是科研界和相关从业人员非常头大的问题。
*AI味:AI天生的图片和实际生活场景/艺术家创作的绘画/拍照/三维作品 相比,存在强烈的违和感,或是细节处理,或是画面逻辑性存在问题,一言就能被看出是“AI出品”
目前大部分的模子,已经具备了去除 “AI味” 的本事,且大概存在轻易误导他人的情况,这时间我们想辨别大概必要非常细致地——
观察图片的细节
。细致查抄人物的面部特征,尤其是眼睛和嘴巴
查抄光线和阴影
。分析图片中的光源是否一致,阴影的方向是否与光源符合,是否存在不自然的光线或阴影
分析像素
。放大图片,寻找是否有暗昧或像素化的部分。
注意背景
。查抄背景中是否有不协调的元素,比如物体边缘是否平滑,背景中是否有不自然的重复模式。
而这些细节上的AI特性,也许就是我们在某些特定场景下必要解决的挑战。
4. 开始探索AI生图前沿
回到主题,我们要探索AI生图的前沿,就必须有一个持续更新,且我们持续愿意跟进和投入时间的“主线”引导,比方,可以从这次
学习活动
、
可图Kolors-LoRA风格故事挑战赛
、
魔搭社区
的各类AIGC工具
开始,持续
探索、尝试、思考总结、实践
,甚至开始持续创作自己的
作品/工具
。
AI生图自破圈以来,被科研界、业界广泛关注,且引发了各大厂商的模子之战,如我们这次学习活动所必要用到的
Kolors(可图)模子(点击即可跳转魔搭模子介绍页)
,就是其中的一个产物——
Kolors(可图)模子(点击即可跳转魔搭模子介绍页)
是快手开源的
文本到图像天生模子
,该模子具有对英语和汉语的深刻理解,并能够天生高质量、逼真的图像。
代码开源链接:https://github.com/Kwai-Kolors/Kolors
模子开源链接:https://modelscope.cn/models/Kwai-Kolors/Kolors
技术陈诉链接:https://github.com/Kwai-Kolors/Kolors/blob/master/imgs/Kolors_paper.pdf
魔搭研习社最佳实践说明:https://www.modelscope.cn/learn/575?pid=543
过去文生图重要以 SD 系列基础模子为主,仅支持英文的prompt,但可图是支持中文的文生图模子,文生图的prompt格式较为固定,
魔搭社区
还开源了专门的各种风格的
可图优质咒语书(点击即可跳转)
,可以针对600+种不同风格,美满prompt,天生各种风格图片,可以在我们的学习当中使用——
5. 通过
魔搭社区
持续探索AI生图前沿
在某些设计的场景中,我们还盼望AI能为我们将特定的笔墨天生在图片当中,比如下面这种海报——
但实际上,这种固定笔墨天生,往往难度较大,一是具体天生在哪些位置,往往必要人为设定,为了更方便地制作类似如许的海报还产生了PS等图片编辑工具,才气实现相应的结果,想要让AI稳定天生相似结果的图片可想而知难度之大。
像我们Task1中介绍的
创意海报天生
工具,早已在代码中固定了相应的笔墨位置和对应的字体,才气举行相应的天生,且大概率是举行了两个步骤——
一个步骤是AI天生背景,
另一个步骤是通过代码将对应的笔墨显示到对应位置,
然后渲染,合成图片,给到我们。
事实上,我们可以通过
魔搭社区
上感兴趣的工具,尝试思考——
可以用在哪些业务里?有哪些行业在使用?
用的是哪个 AI 模子?
是自己部署的AI模子,还是用的API?
使用到了哪些 AI 本事?
假如要复现,必要做哪些额外的设置和开发?
还可以有哪些优化点?
最方便的是,我们还可以直接点到空间文件,举行相关代码的查察甚至下载在 本地/云服务器 复现,以验证思考 & 学习相关的设计开发:
魔搭社区
还有各种资料,可以供我们学习&探索AI生图的前沿——
比如图像天生的技术的前沿你还可以查察
魔搭社区
出品这个视频:
1.2最新图像天生技术研究方向-介绍与分析_哔哩哔哩_bilibili
https://www.bilibili.com/video/BV1vT421k7Qc/?spm_id_from=333.1350.jump_directly&vd_source=f7aed0ed253c3539eaa0f998457a345b
二、精读代码,实战进阶
1. 磨刀准备——认识通义千问
学习说明:
我们操持使用
通义千问大语言模子
来告诉大家如何借助AI智能助手帮我们阅读代码。
工欲善其事必先利其器,
现在让我们请出本日的主角,通义千问(点击直达)。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
千千梦丶琪
论坛元老
这个人很懒什么都没写!
楼主热帖
SQLserver的安装
【C++】ZZ1864- 解题精讲
一文搞清UNIX/Linux与Windows文件换行 ...
StoneDB社区答疑第一期
数据湖Hudi与对象存储Minio及Hive\Spar ...
C语言程序设计(一)计算机思维导论 ...
开发了一个Java库的Google Bard API, ...
【HarmonyOS】初识HarmonyOS
学透shell 带你写常用的100个 shell 脚 ...
Cesium 几何体贴模型 sampleHeight(二 ...
标签云
渠道
国产数据库
集成商
AI
运维
CIO
存储
服务器
快速回复
返回顶部
返回列表