论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
应用中心
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
qidao123.com技术社区-IT企服评测·应用市场
»
论坛
›
人工智能
›
人工智能
›
GPT-4o怎么抢了Midjourney的饭碗
GPT-4o怎么抢了Midjourney的饭碗
欢乐狗
论坛元老
|
2025-4-24 17:33:01
|
显示全部楼层
|
阅读模式
楼主
主题
1924
|
帖子
1924
|
积分
5772
2025年3月26日,OpenAI破晓官宣,GPT-4o的原生多模态图像生乐成能正式上线。用户不再必要登录OpenAI的文生图模子DALL-E,可以直接在ChatGPT应用里调用4o生成、修改图片。
一夜之间,AI生成的吉卜力图像在X等交际媒体上疯传,互联网被一场温柔的二次元画风海潮淹没。人们上传自照相,输入“吉卜力风格”,几秒后,宫崎骏动画中的唯美与梦幻便流淌在发丝衣角间,乃至连OpenAI首创人奥特曼也晒出本身的吉卜力头像,为这场高潮添了一把火。
不过,吉卜力的火爆只是其一,更关键的是,
GPT-4o的画图能力出圈打破了文生图范畴的固有格局,以Midjourney等垂类应用为首的赛道第一次遭到了大模子的挑战。
原来,人们用Midjourney生图时,仍面临着一个致命题目:随机性太强,在提示词过于复杂的时间,细节还原度就会显著降低,而GPT-4o控图能力的跃升,让人类第一次感受到了与AI艺术家在多轮对话中精准改图的魅力。
那么,一个人类印象里只会聊天的通用大模子GPT-4o,是怎样赶超文生图范畴专业选手Midjourney的呢?
实际上,类似Midjourney一样的应用早在一年前就能生成吉卜力、赛博朋克、超现实等多种风格的图像,乃至在画面风雅感、剖析力上略胜于GPT-4o。但GPT-4o的聪明之处在于,它没有选择正面硬刚其艺术范畴的生图质量,而是在应用门槛、修图改图、跨学科能力等细分赛道弯道超车。
一是自然语言对话能力的提升大大降低了使用门槛。
传统文生图范畴,用户必须掌握一套复杂的布局化提示指令,比如风格、镜头、色彩、角度、背景、主体等,差之毫厘、谬以千里。而GPT-4o可以精准明白自然语言命令,只必要像跟好友一样交流,张嘴画图成为现实。
自然语言就是明确话,日常生存中的口头语。比如,如果你必要一张瀑布图,只必要告诉GPT-4o,“帮我生成一幅清早茂密丛林里的彩虹瀑布”就可以了。但面对Midjourney就必要像下图一样平常,用高度布局化的prompt指令告诉它:这个图像的主体有什么,背景是什么颜色,仰角、俯角照旧平视,风格是油画、古典大概赛博朋克,必要细分到这种水平才大概到达理想效果,但就算分得这么细了,依然会有一些无关紧要的画面元素跳出来画蛇添足。
二是多模态能力带来的图生图、图改图功能的上线
。类似Midjourney一样的应用只能发笔墨指令,不支持上传一张图片再做修改,大概说不支持AI生图后,再调整图像的分辨率、色彩、背景。如果成图效果不理想,只能回到第一步重写提示词碰运气,之宿世成的图像等同作废。
GPT-4o的刁悍就在于用户可以随便上传一张图片多次修改,可以是AI生成的,也可以是本身拍的。比如,你可以上传一张满身照,把头型换成大波浪,把衣服换成购物车里的裙子看上身效果。它支持在现有的图片上去p图去修改,相称于我们不消学习PS这种具有高壁垒性质的修图技术。
更牛的是它还可以多轮对话,支持在原图上不限次数地不停改,直到满足为止。你可以一会儿改一个头发,一会儿把背景换成戈壁,大概一会儿调整滤镜风格。只要你想,它便满足。
图源:小红书@Mr.汤先森
除了交互门槛的降低和控图能力的提升,GPT-4o的跨学科知识储备也让人惊艳。
集成了大语言模子原有知识库的GPT-4o相称于一个知天文、晓地理的画家,不但能解高数、做物理题,还原建筑草图也不在话下。相比之下,Midjourney作为垂类应用始终范围在艺术范畴里,为电影宣发、广告等文娱财产服务。
GPT-4o有多牛?给一个标题就可以生成函数图像,相称于一款画图指导版的照相搜题应用。乃至于你给他一个没有任何色彩的铅笔画建筑草图,它都能生成出施工后的房屋实景,完全超过了学科的界限,是一个文理双全的全能型选手。
图源:小红书@云安
既然GPT-4o生图改图功能如此惊艳,我们就要发问了,在其火爆出圈背后,能够为平凡人带来什么实际价值呢?
就在其上线一周内,Midjourney CEO大卫·霍尔兹坐不住了,发文称:GPT-4o只是花架子,Midjourney-v7下周上线。
GPT-4o和Midjourney孰优孰劣,现在还难以定论。但能够肯定的是,GPT-4o火出圈了,它冲出了计划师这个小众的圈子,走入了大多数人的工作场景里,就算完全不知道AI生图是什么,但肯定也知道交际媒体上突然冒出一个能用嘴P图的网络工具。
那么,GPT-4o为什么这么火,给我们带来的一个最实际的价值点在哪里?
首先,它真的做到了应用零门槛,用户乃至不必要任何艺术功底和AI基础,毫无基础的平凡人也能直接上手。
用Midjourney,你必须知道一些基本的流派、色彩、光学、框架等绘画知识以及/imagine(生成图像)、--ar(图像宽高比)等基础英文提示指令。但用GPT-4o,你也可以不懂透视、框架、光线,也不必要知道什么是布局化提示词,完全不消任何专业基础,就像跟朋友对话一样平常交流就可以修图。
图源:小红书@Geek4Fun
除了使用门槛降低,模子产物的质量和效能也大幅提升。一是生图更快,以前用Midjourney剖析复杂指令必要1min左右,GPT-4o在20s内就可以还原。
第二,生图和改图的控制性进步了,GPT-4o能够完全还原你给它的指令。
比犹如样的一个指令“给我生成一个猫猫和狗狗在草地里玩耍的场景”,GPT-4o生成的就是一只猫和一只狗在草地上玩,没有任何其他会突然冒出的元素,但Midjourney大概在草坪上多一个公园或建筑,不会完全按指令来。通俗地讲,就是GPT-4o更能听你的人话了,它就像你的电子西崽一样,你让他干嘛,他就干嘛,多余的事一件不做,该做的事也绝不少干,准确度更强了。
由此,GPT-4o打开全民赛道,进入到我们工作场景里。之前,平凡用户用Midjourney更多照旧出于爱好,娱乐属性强、工具属性弱。生成的油画、动漫等各种风格的图像虽好看,但既不能提升工作效率,也不能赚钱,重要起到了一个造型上的作用。
而GPT-4o的用嘴P图让AI画图能够落地的行业增多,从娱乐化与艺术性走向了专业化与生产力,可以应用到电商、教育、建筑、计划等各行各业。比如你的小孩不会做题,以前必要讨教课老师大概下载作业帮,辅导费用贵而作业帮的讲解只有干巴巴的一段笔墨,令人费解。但是GPT-4o完全可以生成一张讲解草稿图,函数怎么生成的,答案怎么得来的,推导过程流通自然。
再比如电商行业的宣传海报,甲方必要你生成一个针对西欧市场的英语海报,其中计划元素和语言都必要做本地化润色。之前的流程是对接计划师修改元素、去翻译软件润色,再导入PS软件修改,费时费力。但现在GPT-4o只必要一句话,“把这张海报改成西欧风,语言变成英语”,它就很快就能计划一张符合要求的海报,跨范畴跨学科的集成能力非常刁悍。
聊完GPT-4o的画图出圈,不如再聊聊,GPT-4o作为一种底层模子另有什么可发掘的地方。
我们都知道,Midjourney是一个架构在模子上的应用,但GPT-4o本身就是一个模子,生图是它的能力之一。2022年刚出道的ChatGPT只是一个能够笔墨交流的对话助手,后来可以语音打电话,现在又能画图,不停不停在不同维度上迭代升级。
而此次GPT-4o能画图赛道突出重围,真要感谢其原生多模态模子能力的大幅涌现。
跟Midjourney不一样,GPT-4o有更多技术路径可走。现在文生图范畴应用普遍用的底层模子叫扩散模子diffusion model,原理是先生成一个大概的图像,再消除噪点,就像雪中作画、雾里看花,还原能力不强。而GPT-4o沿用文生图自回归模子,相称于把之前猜测token的逻辑推理能力进一步延伸到了文生图范畴,通过逐帧绘制的方式,从已生成的像素推测下一个像素,本质是模仿人类画画。这意味着,与垂类应用不同,大模子可以从底层架构上选择不同的技术路径,而架构的升级通常会带来性能的跃升,基于GPT-4o等原生模子的功能有更多的生长空间。
第二个是,多模态融合会带来跨范畴的融会贯通,GPT-4o作为一种通用大模子,拥有整合笔墨、音频、图像等不同格式信息的能力,现阶段已经可以打电话、生图改图了。
而在未来,是不是可以直接生成音乐和视频,也值得期待。实际上,GPT-4o本次上线的生图功能就脱胎于OpenAI的文生图模子DALL-E。或许,OpenAI旗下的文生视频模子Sora也大概通过某种技术被整合到GPT模子里。届时,在一个模子里交叉处理多种模态的信息将不再迢遥。
而多模态创新也进一步阐明,模子走向多功能后,处理各种使命的能力越来越强,带来的总AI使用成本降低。一个可以预见的趋势是,大模子正在试图成为一个一站式打包站点,将代码、计划、音乐、数据处理等多种使命集成在一起。大概在未来某一天,类似于ChatGPT一样的模子刁悍到在任何范畴都能做到前三,我们也不再必要下载画图的Midjourney、写代码的coze、做音乐的suno等垂类应用,直接下载类似于ChatGPT一样的模子,就能解决所有的事情。这样一来,手机的内存更大了,运行效率也快了。每个月还可以省下了垂类应用一百块左右的会员定制费,性价比更高了。
简言之,GPT-4o画图能力的出圈让我们看到了底层大模子集成多应用的能力。而从这个能力衍生出的愿景是,我们未来可以在一个一站式的模子内里同时使用绘画、音乐、代码等多维能力。而且,它的使用门槛是非常低的,低到任何一个毫无技术基础,乃至连AI都不了解的人都能用。
而这或许才是人类发明AI的终极目的——让技术普惠到每一个角落。
·
·
·
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
欢乐狗
论坛元老
这个人很懒什么都没写!
楼主热帖
C# 读写文件从用户态切到内核态,到底 ...
LeetCode刷题100道,让你滚瓜烂熟拿下S ...
我的 Java 学习&面试网站又又又升级了 ...
不到一周我开发出了属于自己的知识共享 ...
SQL server 2008 r2 安装教程
基于梯度优化的混沌PSO算法matlab仿真 ...
x64dbg 配置插件SDK开发环境
KubeEdge在边缘计算领域的安全防护及洞 ...
SAP集成技术(十一)SAP混合集成平台 ...
graphhopper-ios 编译过程详解
标签云
国产数据库
集成商
AI
运维
CIO
存储
服务器
快速回复
返回顶部
返回列表