GPT-4o怎么抢了Midjourney的饭碗

打印 上一主题 下一主题

主题 1924|帖子 1924|积分 5772


  

  2025年3月26日,OpenAI破晓官宣,GPT-4o的原生多模态图像生乐成能正式上线。用户不再必要登录OpenAI的文生图模子DALL-E,可以直接在ChatGPT应用里调用4o生成、修改图片。
  一夜之间,AI生成的吉卜力图像在X等交际媒体上疯传,互联网被一场温柔的二次元画风海潮淹没。人们上传自照相,输入“吉卜力风格”,几秒后,宫崎骏动画中的唯美与梦幻便流淌在发丝衣角间,乃至连OpenAI首创人奥特曼也晒出本身的吉卜力头像,为这场高潮添了一把火。
  

  不过,吉卜力的火爆只是其一,更关键的是,GPT-4o的画图能力出圈打破了文生图范畴的固有格局,以Midjourney等垂类应用为首的赛道第一次遭到了大模子的挑战。
  原来,人们用Midjourney生图时,仍面临着一个致命题目:随机性太强,在提示词过于复杂的时间,细节还原度就会显著降低,而GPT-4o控图能力的跃升,让人类第一次感受到了与AI艺术家在多轮对话中精准改图的魅力。
  那么,一个人类印象里只会聊天的通用大模子GPT-4o,是怎样赶超文生图范畴专业选手Midjourney的呢?
  

  实际上,类似Midjourney一样的应用早在一年前就能生成吉卜力、赛博朋克、超现实等多种风格的图像,乃至在画面风雅感、剖析力上略胜于GPT-4o。但GPT-4o的聪明之处在于,它没有选择正面硬刚其艺术范畴的生图质量,而是在应用门槛、修图改图、跨学科能力等细分赛道弯道超车。
  一是自然语言对话能力的提升大大降低了使用门槛。传统文生图范畴,用户必须掌握一套复杂的布局化提示指令,比如风格、镜头、色彩、角度、背景、主体等,差之毫厘、谬以千里。而GPT-4o可以精准明白自然语言命令,只必要像跟好友一样交流,张嘴画图成为现实。
  自然语言就是明确话,日常生存中的口头语。比如,如果你必要一张瀑布图,只必要告诉GPT-4o,“帮我生成一幅清早茂密丛林里的彩虹瀑布”就可以了。但面对Midjourney就必要像下图一样平常,用高度布局化的prompt指令告诉它:这个图像的主体有什么,背景是什么颜色,仰角、俯角照旧平视,风格是油画、古典大概赛博朋克,必要细分到这种水平才大概到达理想效果,但就算分得这么细了,依然会有一些无关紧要的画面元素跳出来画蛇添足。
  

  二是多模态能力带来的图生图、图改图功能的上线。类似Midjourney一样的应用只能发笔墨指令,不支持上传一张图片再做修改,大概说不支持AI生图后,再调整图像的分辨率、色彩、背景。如果成图效果不理想,只能回到第一步重写提示词碰运气,之宿世成的图像等同作废。
  GPT-4o的刁悍就在于用户可以随便上传一张图片多次修改,可以是AI生成的,也可以是本身拍的。比如,你可以上传一张满身照,把头型换成大波浪,把衣服换成购物车里的裙子看上身效果。它支持在现有的图片上去p图去修改,相称于我们不消学习PS这种具有高壁垒性质的修图技术。
  更牛的是它还可以多轮对话,支持在原图上不限次数地不停改,直到满足为止。你可以一会儿改一个头发,一会儿把背景换成戈壁,大概一会儿调整滤镜风格。只要你想,它便满足。
  

  图源:小红书@Mr.汤先森
  除了交互门槛的降低和控图能力的提升,GPT-4o的跨学科知识储备也让人惊艳。集成了大语言模子原有知识库的GPT-4o相称于一个知天文、晓地理的画家,不但能解高数、做物理题,还原建筑草图也不在话下。相比之下,Midjourney作为垂类应用始终范围在艺术范畴里,为电影宣发、广告等文娱财产服务。
  GPT-4o有多牛?给一个标题就可以生成函数图像,相称于一款画图指导版的照相搜题应用。乃至于你给他一个没有任何色彩的铅笔画建筑草图,它都能生成出施工后的房屋实景,完全超过了学科的界限,是一个文理双全的全能型选手。
  

  图源:小红书@云安
  既然GPT-4o生图改图功能如此惊艳,我们就要发问了,在其火爆出圈背后,能够为平凡人带来什么实际价值呢?
  

  就在其上线一周内,Midjourney CEO大卫·霍尔兹坐不住了,发文称:GPT-4o只是花架子,Midjourney-v7下周上线。
  

  GPT-4o和Midjourney孰优孰劣,现在还难以定论。但能够肯定的是,GPT-4o火出圈了,它冲出了计划师这个小众的圈子,走入了大多数人的工作场景里,就算完全不知道AI生图是什么,但肯定也知道交际媒体上突然冒出一个能用嘴P图的网络工具。
  那么,GPT-4o为什么这么火,给我们带来的一个最实际的价值点在哪里?
  首先,它真的做到了应用零门槛,用户乃至不必要任何艺术功底和AI基础,毫无基础的平凡人也能直接上手。用Midjourney,你必须知道一些基本的流派、色彩、光学、框架等绘画知识以及/imagine(生成图像)、--ar(图像宽高比)等基础英文提示指令。但用GPT-4o,你也可以不懂透视、框架、光线,也不必要知道什么是布局化提示词,完全不消任何专业基础,就像跟朋友对话一样平常交流就可以修图。
  

  图源:小红书@Geek4Fun
  除了使用门槛降低,模子产物的质量和效能也大幅提升。一是生图更快,以前用Midjourney剖析复杂指令必要1min左右,GPT-4o在20s内就可以还原。
  第二,生图和改图的控制性进步了,GPT-4o能够完全还原你给它的指令。比犹如样的一个指令“给我生成一个猫猫和狗狗在草地里玩耍的场景”,GPT-4o生成的就是一只猫和一只狗在草地上玩,没有任何其他会突然冒出的元素,但Midjourney大概在草坪上多一个公园或建筑,不会完全按指令来。通俗地讲,就是GPT-4o更能听你的人话了,它就像你的电子西崽一样,你让他干嘛,他就干嘛,多余的事一件不做,该做的事也绝不少干,准确度更强了。
  由此,GPT-4o打开全民赛道,进入到我们工作场景里。之前,平凡用户用Midjourney更多照旧出于爱好,娱乐属性强、工具属性弱。生成的油画、动漫等各种风格的图像虽好看,但既不能提升工作效率,也不能赚钱,重要起到了一个造型上的作用。
  

  而GPT-4o的用嘴P图让AI画图能够落地的行业增多,从娱乐化与艺术性走向了专业化与生产力,可以应用到电商、教育、建筑、计划等各行各业。比如你的小孩不会做题,以前必要讨教课老师大概下载作业帮,辅导费用贵而作业帮的讲解只有干巴巴的一段笔墨,令人费解。但是GPT-4o完全可以生成一张讲解草稿图,函数怎么生成的,答案怎么得来的,推导过程流通自然。
  再比如电商行业的宣传海报,甲方必要你生成一个针对西欧市场的英语海报,其中计划元素和语言都必要做本地化润色。之前的流程是对接计划师修改元素、去翻译软件润色,再导入PS软件修改,费时费力。但现在GPT-4o只必要一句话,“把这张海报改成西欧风,语言变成英语”,它就很快就能计划一张符合要求的海报,跨范畴跨学科的集成能力非常刁悍。
  

  聊完GPT-4o的画图出圈,不如再聊聊,GPT-4o作为一种底层模子另有什么可发掘的地方。
  我们都知道,Midjourney是一个架构在模子上的应用,但GPT-4o本身就是一个模子,生图是它的能力之一。2022年刚出道的ChatGPT只是一个能够笔墨交流的对话助手,后来可以语音打电话,现在又能画图,不停不停在不同维度上迭代升级。
  

  而此次GPT-4o能画图赛道突出重围,真要感谢其原生多模态模子能力的大幅涌现。跟Midjourney不一样,GPT-4o有更多技术路径可走。现在文生图范畴应用普遍用的底层模子叫扩散模子diffusion model,原理是先生成一个大概的图像,再消除噪点,就像雪中作画、雾里看花,还原能力不强。而GPT-4o沿用文生图自回归模子,相称于把之前猜测token的逻辑推理能力进一步延伸到了文生图范畴,通过逐帧绘制的方式,从已生成的像素推测下一个像素,本质是模仿人类画画。这意味着,与垂类应用不同,大模子可以从底层架构上选择不同的技术路径,而架构的升级通常会带来性能的跃升,基于GPT-4o等原生模子的功能有更多的生长空间。
  

  第二个是,多模态融合会带来跨范畴的融会贯通,GPT-4o作为一种通用大模子,拥有整合笔墨、音频、图像等不同格式信息的能力,现阶段已经可以打电话、生图改图了。而在未来,是不是可以直接生成音乐和视频,也值得期待。实际上,GPT-4o本次上线的生图功能就脱胎于OpenAI的文生图模子DALL-E。或许,OpenAI旗下的文生视频模子Sora也大概通过某种技术被整合到GPT模子里。届时,在一个模子里交叉处理多种模态的信息将不再迢遥。
  而多模态创新也进一步阐明,模子走向多功能后,处理各种使命的能力越来越强,带来的总AI使用成本降低。一个可以预见的趋势是,大模子正在试图成为一个一站式打包站点,将代码、计划、音乐、数据处理等多种使命集成在一起。大概在未来某一天,类似于ChatGPT一样的模子刁悍到在任何范畴都能做到前三,我们也不再必要下载画图的Midjourney、写代码的coze、做音乐的suno等垂类应用,直接下载类似于ChatGPT一样的模子,就能解决所有的事情。这样一来,手机的内存更大了,运行效率也快了。每个月还可以省下了垂类应用一百块左右的会员定制费,性价比更高了。
  

  简言之,GPT-4o画图能力的出圈让我们看到了底层大模子集成多应用的能力。而从这个能力衍生出的愿景是,我们未来可以在一个一站式的模子内里同时使用绘画、音乐、代码等多维能力。而且,它的使用门槛是非常低的,低到任何一个毫无技术基础,乃至连AI都不了解的人都能用。
  而这或许才是人类发明AI的终极目的——让技术普惠到每一个角落。
  

  ·
  ·
  ·

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
继续阅读请点击广告

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

欢乐狗

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表