论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
大数据
›
数据仓库与分析
›
中国大模型产业的五个真题目
中国大模型产业的五个真题目
南七星之家
金牌会员
|
2024-8-1 23:33:02
|
显示全部楼层
|
阅读模式
楼主
主题
916
|
帖子
916
|
积分
2750
大模型创业潮汹涌,撇开热闹的表象,才能看清大模型带来的新机会
2023年科技领域最热的话题就是AI大模型。这股热潮由美国创业公司OpenAI引领,ChatGPT发布后几个月,中国公司密集发布自己的大模型,整个2023年,中国公司发布的大模型数目已经超过130个。
OpenAI可以或许实现技术突破,和许多科技创新领域公司的特点类似。有充足优秀的人才,海量资金支持,多年持续投入,以及对目的坚定。在ChatGPT发布之前的很长一段时间里,产业界和投资界大多不看好OpenAI,但并未动摇该公司的方向。2023年,险些全部人都承认了大模型的方向,各人认为,OpenAI已经把结果摆出来了,其他公司要做的就是尽快跟进,不断优化,确保能参与未来。
一些人把过去没有大规模投入大模型的原因归咎于不确定结果。如今已经确定了,算力、数据、人才都可以加大投入,中国公司擅长工程优化,做出能实际应用的大模型产物指日可待。
但究竟真的如此吗?对于OpenAI来说,大模型从来都是确定的方向,OpenAI的大部分资金都花在了算力上,当时英伟达的A100(AI专用芯片)代价比本日低许多。据第三方数据机构SemiAnalysis估计,OpenAI使用了约3617台HGX A100服务器,包罗近3万块英伟达GPU。光有GPU还不够,投资方微软资助OpenAI搭建了大模型定制化的算力集群,可以或许进一步提升这些GPU的效率。在数据方面,OpenAI从数据收集、数据标注、数据清洗、数据整理、数据优化等每个环节都有持续投入。OpenAI团队中大部分人,都来自顶尖的科研机构或科技巨头。
也就是说,在这种气力和投入力度下,OpenAI依然用了超过八年的时间,才打造出突破性产物GPT4,且存在“幻觉”(也就是答非所问、胡说八道等环境)。
为什么中国公司在几个月的时间里,就能做出号称匹敌GPT4的大模型?这是谁的幻觉?
2023年下半年,连续有部分大模型被指出是“套壳”,直接套用了国外的开源大模型,在一些检验大模型能力的榜单上排名靠前,不少指标都靠近GPT4。多位业内人士告诉《财经》记者,榜单表现越好,套壳比例越高,略有调整表现就会变差。
**“套壳”只是中国大模型产业现状的冰山一角,这背后折射生产业发展的五个题目,它们之间互为因果,每个题目都无法独立解决。**到本日,大模型的大众热度已经显着下滑,2024年,中国大模型产业的题目会进一步袒露。但在热闹、题目之下,大模型已经在产业中发挥代价。
模型:原创、拼装还是套壳?
2023年11月,阿里巴巴前技术副总裁、AI科学家贾扬清发文称,某国内大厂做的大模型用的是Meta的开源模型LLaMA,只是修改了几个变量名。贾扬清表示,由于改名导致他们需要做许多工作来适配。
此前,就有国外开发者称,李开复创办的“零一万物”使用的就是LLaMA,只是重定名了两个张量,因此,业内质疑零一万物就是“套壳”。随后,李开复和零一万物均有回应,称在训练过程中沿用了开源架构,出发点是充实测试模型,执行对比实行,如许能快速起步,但其发布的Yi-34B和Yi-6B模型都是从0开始训练,并做了大量原创性优化和突破工作。
2023年12月,媒体报道称,字节跳动秘密研发的大模型项目中,调用了OpenAI的API(应用程序接口),并使用ChatGPT输出的数据举行模型训练。而这是OpenAI的使用协议中明确禁止的行为。
随后,OpenAI暂停了字节的账号,表示会进一步调查,如果属实将要求更改或终止账户。
字节对此的回应是,2023年初,技术团队在大模型探索初期,有部分工程师将GPT的API服务应用于较小模型的实行性项目研究中。该模型仅为测试,没有计划上线,也从未对外使用。在2023年4月公司引入GPT API调用规范检查后,这种做法已经停止。且字节大模型团队已经提出了明确的内部要求,不得将GPT模型天生的数据添加到字节大模型的训练数据集,并培训工程师团队在使用GPT时服从服务条款。
**目前国产大模型中,主要分为三类:**一是原创大模型;二是套壳国外的开源大模型;三是拼装大模型,也就是把过去的小模型们拼在一起,变成参数目看起来很大的“大模型”。
此中,原创大模型数目最少,做原创大模型需要有很强的技术积累,且要有持续的高投入,风险很大,由于一旦模型没有充足强的竞争力,这些大规模投入就打了水漂。大模型的代价需要商业化来证明,当市场上已经出现充足好的底子大模型,其他公司应该去发掘新的代价点,好比大模型在差别领域的应用,或是中央层,好比帮大模型训练、数据处理、算力服务等。
**但现状是,大部分参与者都在“卷”所谓的“原创大模型”,又担心风险太高,于是有了大量套壳、拼装的大模型。**无论是直接使用开源模型或是拼装模型,只要符合相干规范,都没有题目。到商业化落地阶段,客户也不太会在意是否原创,有用就行,甚至不少客户会由于本钱更低,更愿意选择非原创的技术。
题目在于,即使是拼装和套壳,各人也要不断强调“原创”,为了证明“原创”,就需要调整修改,而这又会影响大模型的迭代能力,陷入内耗。
算力:卡脖子还是不想买?
大模型的底子之一是海量算力,且是先进算力,因此大模型也被称为暴力美学。英伟达的A100此前被认为是最得当训练大模型的,近期英伟达又推出了更先进的算力芯片H100,但还未在中国市场开售。
一位英伟达的长期合作同伴告诉《财经》记者,2023年,A100的售价涨了约1倍,据他相识,2023年密集购买A100的中国公司主要是自身有业务需求的大厂,包罗阿里巴巴、腾讯、字节跳动、百度等,创业公司很少。有一些知名大模型创业公司会主动要求和他建立战略合作关系,以此来对外证明自己在投入算力,“不给钱的那种”。
2023年密集购买A100的中国公司主要是自身有业务需求的大厂,创业公司很少。 图/IC
尽管有美国政府的“出口管制规则”,中国公司想要得到英伟达的算力,并非不大概,目前有许多方式可以选择。除了直接购买,还可以通过英伟达在中国的合作同伴们购买。GPU本身很贵,买来之后的部署、运营、调试、使用,都是本钱。此前业内传播的一句话是,中国不少科研机构连A100的电费都付不起。
由八张A100组成的DGX服务器最大功率是6.5kW,也就是运行一小时需要6.5度电,同时要搭配大约同等电量的散热设备。按照均匀工业用电每度0.63元盘算,一台服务器开一天(24小时)的电费约200元。
如果是1000台服务器,一天的电费就是约20万元。
因此,除了大厂,创业公司很难大规模购买、部署GPU。
GPU资源还可以租用,在阿里云、腾讯云或是亚马逊AWS等云服务平台上,都可以直接租用A100算力服务。租金同样在过去一年涨了不少。
但实际环境是,不少大模型公司并不想在算力上做大规模投入。多位关注AI的投资人告诉《财经》记者,一旦创业公司开始部署算力,会出现两个“题目”,一是这个投入没有上限,没有尽头,谁也不知道要烧到什么水平。OpenAI到本日还会由于算力跟不上而出现宕机。二是公司会因此变成重资产公司,这对于公司未来的估值有不利影响,会直接影响到投资人的收益。
2023年,中国不少投资人会直接告诉大模型创业者,先招一些名校背景的人,抓紧开发布会,发布大模型产物,然后做下一轮融资,不要去买算力。
创业公司们在风口期拿到大量融资,高薪招人,高调发布产物,推高估值。一旦风口过去,继承融资或是上市就需要收入,到时间再通过此前融到的钱,去低价甚至亏本竞标项目,或是直接对外投资来并表收入。
这就有大概陷入一个恶性循环:不肯意负担算力高投入的风险,就很难在大模型领域有突破性发展,也就难以和那些真正在这个方向上大规模投入的巨头们竞争。
数据:低质数据怎么解决?
数据和算力都是大模型的底子,在数据方面,中国大模型产业面临和算力同样的题目:是否值得大规模投入?
在中国,一样寻常的数据获取门槛很低,过去主要是用爬虫工具来收集数据,如今可以直接用开源的数据集。中国大模型以中文数据为主,业内广泛认为中文互联网数据的质量较低。
一位AI公司创始人形容,当他需要在互联网上搜刮专业信息时,他会用谷歌搜刮,或是上YouTube。国内的网站或App上,并非缺少专业信息,而是广告内容太多,找到专业内容需要的时间更久。
OpenAI用于训练大模型的中文数据同样来源于中国互联网平台,但它额外做了许多工作来提升数据质量,这不是普通的数据标注工作能完成的,需要专业团队对数据举行清洗、整理。
此前就有AI创业者表示,在中国很难找到相对标准化的数据服务商,大多是定制化服务,定制服务又很贵。
这和是否要大规模投资算力的逻辑有些类似,这笔投入对于许多公司,尤其是创业公司来说,看起来并不划算。如果大规模投入,一旦最后的模型效果不理想,同样是“打水漂”,还不如用开源数据训练,直接开发布会。
**此外,中国市场缺乏有用的数据保护本领,**一位大厂AI负责人说,“在中国,你能拿到的数据,别人也能拿到”,“如果你花许多钱去做高质量数据,别人可以用很低的本钱拿到,反过来也一样。”
包罗数据处理在内的大模型中央环节,在2024年会是一个相对明确的新发展方向。无论是哪种模型,在落地到具体应用场景中时,必须要用专业数据做优化调试,这对于数据处理的要求更高,此外还需要有模型调试、工程优化等环节参与。
但如果此中的环节又变成了投资人眼里的“新风口”,那又是另一个故事了。
资本:只有资本短视吗?
以上的三个题目,背后都指向一个共同的方向:资本短视。
尽管OpenAI已经蹚出一条明确的道路,对于绝大部分公司来说,想从零开始做出成熟的大模型,需要耗费的本钱和时间并不会短许多。
**对于大部分投资人来说,每笔投资的目的很明确:退出、赢利。**OpenAI火了,估值一起攀升,未来还会继承增长。2023年4月,该公司估值约280亿美元,到2023年12月,据美国媒体报道,OpenAI最新一轮估值或将超过1000亿美元。这在投资人眼里是一个非常确定的信号,如果以符合的代价投资中国大模型创业公司,也能在很短时间内做到估值成倍增长。
**中国投资人的耐心只有三五年,这是资本运作模式决定的。**投资人从LP手里募资,需要在肯定年限内退出并拿到可观的收益。投资人退出的渠道包罗项目并购、上市,或是在后续融资中把自己手里的股份卖给新投资方。
早期融资可以靠风口和讲故事,但走到中后期甚至上市,就必须有肯定规模的商业化能力。投资人们发现,拖得越久,项目上市或被并购的难度就越高,由于AI领域主要的商业模式是做B端的定制化项目,这条路径就决定了创业公司很难做出高增长的收入。投资人只能趁风口还在,迅速推动公司完成多轮融资,抬高估值,之后哪怕打折出售手里的股份,也是划算的。
这也是为什么2023年大模型相干的发布会层出不穷,各种大模型榜单百花齐放且排名各不相同,这些都是有助于融资的“故事”。类似的路径在几年前的AI产业已经出现过一次,谁人阶段的代表公司是AI四小龙。2023年的大模型创业只是把过去三年走完的路在一年时间里加速完成。
但短视绝不是投资人单方面的题目。在本日的商业环境下,大部分人都追求短期的、确定性的结果,十年,甚至五年后的未来都似乎难以把握。
商业化:谁是符合的买单人
2023年,中国大模型产业迅速从比拼大模型参数进入到比拼商业化的阶段。2024年1月的CES(消费电子展)上,两位著名的AI科学家李飞飞和吴恩达均表示,接下来AI商业化会有显着发展,会深入到更多行业。
**目前看来,大模型的主要应用方向有两个:**一是通过大模型技术为C端用户提供新的工具,好比付费版GPT4、百度用文心大模型重构的百度文库、新的AI视频剪辑工具、文生图工具等。但C端付费短期内很难有大规模增长,对于大模型工具有刚需的人群相对较少。
**更有希望的商业化方向是B端服务。**在中国市场,做B端软件服务一直是一个“老浩劫”的生意业务。多位投资人和业内人士都提到,中国市场最大的B端客户是政府和国企,大模型做为先进的生产力工具,会有一个直接影响是减少人力。而在政府和国企,减少人力在许多时间反而会变成阻力。
如果退而求其次,选择中小B客户,在2024年恐怕也很难。一位AI大模型创业者说,他近期扣问了不少企业客户,得到的回应是:“大模型能做什么?能帮我裁人还是能帮我赢利?”
到本日,即使是最先进的大模型也依然存在“幻觉”题目,这在C端应用上还可以忍受,但在一些专业的B端场景中,有“幻觉”就意味着难以真正落地。过去比对式AI,比方人脸辨认,如果辨认错误,人工辅助、调整的本钱很低,但大模型擅长“不苟言笑地胡说八道”,具有肯定迷惑性。
但大模型已经切实在实际应用了。多位业内人士都提到,由于大模型的出现,许多过去无法解决的题目都有了新方法可以解决,且效率有显着提升。比方前文提到的拼接大模型,在过去很少有人尝试,如今不少AI公司都开始把多个差别场景的小模型拼在一起,在解决大部分同类题目时,不需要再单独训练模型,可以直接调取使用。
此外,在一些有巨大业务的公司里,大模型也已经落地使用。类似于上一轮AI视觉技术动员AI算法的发展,这些AI算法迅速在内容保举、电商、打车、外卖等领域发挥紧张代价。如今,腾讯的游戏业务、阿里的电商业务、字节的内容业务等,都已经用上了大模型。
**2024年,AI大模型的发展会有几个相对确定的趋势:**一是融资热度下滑,2023年出现的一家公司完成多轮数亿美元融资的环境会显着减少,大模型创业公司需要探求新的出路。目前看来,大厂们更有气力做大模型底子设施的工作,创业公司可以思量调整方向,填补底子大模型到应用之间的空白。
二是大模型的应用会持续深入,但这主要会集中在数字化水平很高且业务体量非常大的领域。在C端,大模型也会进一步遍及,不外对于中国公司来说,不能只依赖C端用户付费,C端应用场景中会加入其他变现模式,主要是广告。
三是国产算力会进一步得到重视,得到重视并不意味着短期内会有显着进步,这是一个漫长的过程。国产算力能力提升的同时,会有更多乘隙炒作、造势、圈钱的征象。
风口会刺激产业迅速扩张,泡沫随之而生,机会越大,泡沫就越大。只有撇开泡沫,才能看清产业发展的新机会。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
南七星之家
金牌会员
这个人很懒什么都没写!
楼主热帖
MySQL并行复制(MTS)原理(完整版) ...
详讲Java开发中的六个常用API(Math,S ...
【K8S】K8S入门基础知识
BOS EDI 项目 Excel 方案开源介绍 ...
软件项目管理 3.5.敏捷生存期模型 ...
云原生之 Docker篇 Docker Stack介绍及 ...
java中Collections.addAll方法具有什么 ...
鸿蒙到底是不是安卓?
postman结合newman生成测试报告 ...
[一句话说iOS]dispatch如何造成死锁 ...
标签云
存储
服务器
快速回复
返回顶部
返回列表