ToB企服应用市场:ToB评测及商务社交产业平台

标题: 国内外大模型生态发展报告! [打印本页]

作者: 涛声依旧在    时间: 2024-6-22 20:35
标题: 国内外大模型生态发展报告!
许多同砚只知类似Check GPT大概说对国内的一些比较了解,对国外的不太了解,所以在这总结。
1 大模型的发展

左表

名称参数特点发布时间GPT-215亿英文底模,开源2019年Google T5110亿多任务微调, 开源2019年GPT-3.51750亿人工反馈微调2022年Meta OPT1750亿英文底模, 开源2022年LLaMA70亿~650亿最受欢迎的开源模型之一2023年GPT-41.8万亿史上最强大模型2023年Vicuna-13B130亿开源聊天机器人2023年Falcon400亿阿联酋先辈技术研究委员会2023年Claude 1.3未公开Anthropic研发,注重安全和可靠性2023年PaLM 2未公开Google最新大模型2023年Mistral7B, 13B强调性能和效率2023年GPT-4-turbo未公开OpenAI更高效版本2023年Claude 2未公开改进的上下文理解和任务执行能力2023年LLaMA 270亿, 130亿, 700亿Meta开源的改进版本,商用更自由2023年Gemini未公开Google的多模态AI模型2023年Claude 3未公开Anthropic的最新版本,包括Opus、Sonnet和Haiku2024年GPT-4o未公开OpenAI的GPT-4升级版2024年Gemini Pro未公开Google Gemini的升级版2024年右表

名称参数特点发布时间百川智能70亿王小川, 开源2023年文心一言2600亿中文语料85%2023年通义千问70亿~700亿总体相当GPT-32023年ChatGLM6B60亿10B以下最强中文开源2023年腾讯混元超千亿腾讯出品多模态2023年MOSS160亿多插件, 开源2023年Aquila70亿~330亿首个中文数据合规2023年PolyLM130亿对亚洲语言友好2023年讯飞星火未公开科大讯飞出品,多模态2023年ChatGLM2-6B60亿ChatGLM升级版,更强性能2023年天工未公开昆仑万维与奇点智源合作2023年360智脑未公开360公司出品2023年MiniMax未公开前百度高管创立2023年ChatGLM360亿,130亿更强的多轮对话能力2024年文心一言4.0未公开百度升级版,多模态加强2024年通义千问2.0未公开阿里云升级版2024年腾讯混元2.0未公开腾讯升级版2024年
  1. Google T5 -> GPT-3 -> GLM130B -> LLaMa -> GPT-4 -> Falcon -> GPT-4v
复制代码
发展角度,LLM最早基本在2017年左右,其实最早所有的LLM都是基于谷歌的Transformer架构设计。2017年谷歌发布它的T5模型,后续不断有新的这样LLM衍生出来。包括GPT-2、GPT-3、GLM-130B以Facebook为代表的这个开源的LaMa,另有厥后GPT-4及中东的科研机构开发的这个FanCL及最新GPT4,包括多模态模型。
更多 LLM 官网,请访问编程严选网-导航

2 国外与国内大模型

表格左边重要是国外的一些常见LLM,右边是国内厂商。
发布时间看,外洋比我们要早些,可以或许叫得上的或用的比较多的都是在2023年才开始发布。
3 参数与模型能力

先看国外的,第一个GPT-2大概15亿的参数。
参数是啥?

LLM的所谓参数,代表一个模型的复杂程度,参数越大,也就说它须要的容量空间,它须要的算力也就越大,那相应的能力就越强。
参数越小,它须要的算力就越小,能力相对较弱,能力强弱,重要通过它的回答或提炼题目的能力,就能看出来。
谷歌T5大概有110亿的参数,特点就是它可以实现多任务的一个微调,它是开源的。GPT重要是OpenAI的,GPT-3.5出来后,市面震惊,因为它的结果非常好,但是我们可以看到它的参数也黑白常可怕,达到1750亿。所以说它的须要的算力非常多,它就能支持人工反馈的微调。
随后就是Meta公司即Facebook,就它也出品了,它的模型大概1750亿,底模是英文的。
底模是啥?

大模型预训练时,有个预训练过程,须要大量语料,如大量用英文质料,那底模就是英文,那它在它基础上做英文的一些题目回答,结果较好。
LLaMA也叫羊驼,https://www.alpacaml.com/:

目前比较主流的一个开源模型,目前开源里参数较大,结果较好的,最受欢迎的开源LLM之一。 GPT4最新出,但它最新的参数没变化,但底模数量会较大。GPT-4我们看到它的参数达到1.8万亿,号称史上最强。
比如说GPT的底模里有中文语料,所以它足够大,涵盖基本所有互联网知识,GPT-3.5停止2021年之前互联网知识,4把知识库呢更新到2023年。所以它涵盖的语言种类比较多。
再看右边国内的。
首先百川智能,王小川搞的,参数70亿,相当于羊驼水平。
百度文心一言就相对比较大,百度搞AI投入还是比较大的,参数2600亿,中文语料占到85%。
阿里通义千问参数在70~700亿之间,总体能力相当于GPT-3,国内还是稍差。
GLM-6B大概60亿的参数,清华大学的团队。目前国内或国际100亿以下最强中文开源模型,100亿参数窗口之下结果最好的目前是它,真的不错。
腾讯混元,具体参数没公布,大概超千亿,支持多模态。
多模态啥意思?

不但有文字文本天生,另有图像天生,文到图图到文啊等等就是各种模态支持。它的底模大概它的预训练更复杂,不但大概训练文字,还训练图片,支持多插件的开源模型。
基本上各有特点,但国内有两大特点:
商用角度,开源模型其实不太理想,LaMa不支持商用,但GLM都可商用,包括百川、FanCL都可商用。
4 大模型的生态

百模大战,千模大战多模型大战,就是由OpenAI引爆。
Hugging Face,抱脸,相当于AI界GitHub。许多开源模型可以找到:

可见整个LLM发展生态繁荣。
5 清华团队在PupilFace的主页

ChatGLM就是清华团队的,他们在PupilFace上面的一个主页。我们可以看到他们的作品。
已创建的LMs(Large Models,大型模型),LLM像ChatGLM、WebGLM 130B等,另有一些相应工具,包括预训练的这些图训练的神经网络。https://huggingface.co/THUDM/chatglm3-6b:

可以看到它的6B(6 billion,60亿参数),32K(大概指模型的某种设置或版本),然后包括7B(7 billion,70亿参数),13B(13 billion,130亿参数)。最强130B(130 billion,1300亿参数)。
整个大模型确实非常多,每个模型都有自己的特色。
6  商用许可

大模型名称参数是否可商用ChatGLM6B, 1T可商用ChatGLM26B, 1T可商用LLaMA7B, 13B, 33B, 65B, 1T不可商用LLaMA27B, 13B, 33B, 65B, 2T可商用BLOOM1B7, 7B1, 176B-MT, 1.5T可商用Baichuan7B, 13B, 1.2T, 1.4T可商用Falcon7B, 40B, 1.5T可商用Qwen7B, 7B-Chat, 2.2T可商用Aquila7B, 7B-Chat可商用Mistral7B, 13B可商用Gemma2B, 7B可商用Claude未公开不可商用GPT-4未公开不可商用PaLM 2未公开不可商用Gemini未公开不可商用BERT110M, 340M可商用RoBERTa125M, 355M可商用T560M, 220M, 770M, 3B, 11B可商用Gopher280B不可商用关注我,紧跟本系列专栏文章,咱们下篇再续!
作者简介:魔都技术专家,多家大厂后端一线研发履历,在分布式体系设计、数据平台架构和AI应用开发等范畴都有丰富实践履历。
各大技术社区头部专家博主。具有丰富的引领团队履历,深厚业务架构息争决方案的积累。
负责:
目前主攻降低软件复杂性设计、构建高可用体系方向。
参考:
本文由博客一文多发平台 OpenWrite 发布!

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4