论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
开源技术
›
开源技术
›
太强了!10大开源大模子!
太强了!10大开源大模子!
南七星之家
金牌会员
|
2025-1-1 02:04:03
|
显示全部楼层
|
阅读模式
楼主
主题
821
|
帖子
821
|
积分
2465
大型语言模子(LLMs)无疑是人工智能革掷中的核心驱动力,它们建立在Transformer架构的稳固基石之上,并根据缩放定律不断演进。
简而言之,缩放定律展现了一个重要原则:随着数据规模的扩大、参数数量的增加以及计算本领的提升,模子的本领将迈向新的巅峰。
正是通过预先训练海量的文本数据,LLMs展现出了卓越的对话和使命处理本领,成为了当代人工智能范畴的璀璨星辰。
只管如此,如今备受接待的巨型模子如ChatGPT和Bard,都建立在专有且闭源的基石之上,这无疑为它们的使用设立了重重停滞,导致技术信息的透明度变得模糊不清。
然而,开源的大型语言模子(LLMs)正逐渐崭露锋芒,它们不仅显著增强了数据的安全性和隐私掩护,更为用户节流了大量成本,淘汰了对外部依靠的需求。更重要的是,开源LLMs让代码更加透明,使得模子得以个性化定制,推动整个范畴的创新与发展,为科技进步注入了新的活力!
在本文,我会具体先容下,最新的顶级开源LLMs大模子!
LLaMA 3
近期,Meta 隆重推出了两款开源模子:Llama 3 8B与Llama 3 70B,这两款模子可供外部开发者免费使用。Meta 表现,Llama 3 8B和Llama 3 70B在如今同体量模子中,展现出卓越的性能,堪称业界的佼佼者。
从Meta 分享的基准测试结果来看,Llama 3 400B+ 的实力不容小觑,其性能已逼近Claude超大杯以及新版GPT-4 Turbo,虽然还存在一定的差距,但足以证实它在顶尖大模子范畴已占据一席之地。
模子下载链接:https://llama.meta.com/llama-downloads/
GitHub项目地址:https://github.com/meta-llama/llama3
Phi-3
Phi-3是微软AI研究院的新开源语言模子,具备小巧且高效的特性,赢得市场青睐。系列包罗Phi-3-Mini、Phi-3-Small和Phi-3-Medium三种规模。Phi-3-Mini虽小,但性能与大型模子相当,得当资源有限环境。Phi-3-Small和Phi-3-Medium在扩展数据集支持下性能更佳。Phi-3系列以小巧设计、卓越性能和机动扩展本领,为语言模子范畴注入新活力,满足不同用户需求。
Phi-3 技术陈诉《一个能跑在手机上的大模子》:https://arxiv.org/abs/2404.14219
链接:https://huggingface.co/collections/microsoft/
通义千问Qwen1.5
克日,国内领先的通义千问公司震撼发布了一款千亿级参数模子——Qwen1.5-110B。颠末详尽的性能测试,Qwen1.5-110B依附其卓越体现重返SOTA开源模子之巅,乃至逾越了强盛的Llama 3 70B,成为了当前最顶尖的开源大模子。值得一提的是,Qwen1.5-110B与Qwen1.5系列的其他模子在结构上保持了一致性,均采用了分组查询注意力机制,保证了推理的高效性。别的,该模子还支持高达32K的上下文,同时兼容多种语言,包罗英语、中文、法语、西班牙语、德语、俄语、韩语和日语等,满足了全球用户的需求。
model:https://hf-mirror.com/Qwen/Qwen1.5-110B
demo:https://huggingface.co/spaces/Qwen/Qwen1.5-110B-Chat-demo
BLOOM
BLOOM是一个颠末一年互助开发的自回归LLM训练模子,使用了工业级计算资源和大量文本数据生成文本。其发布是生成式AI民主化的里程碑。拥有1760亿参数的BLOOM,是强盛的开源LLMs之一,能以46种语言和13种编程语言生成连贯准确的文本。其特点是透明度高,源代码和训练数据均可访问,方便运行、研究和改进。别的,BLOOM可通过Hugging Face生态系统免费使用。
链接:bigscience.huggingface.co
BERT
BERT是早期大型语言模子的代表作,作为Transformer潜力的首批实验之一,BERT在2018年开源后灵敏在天然语言处理使命中取得先辈性能。因其创新和开源性子,BERT成为最受接待的LLMs之一,有数千种开源、免费和预训练的模子用于各种用例。但比年来,谷歌对开源大模子的态度有所淡漠。
链接:https://github.com/google-research/bert
Falcon 180B
Falcon 40B在开源LLM社区备受赞誉,成为Hugging Face榜首。新推出的Falcon 180B展现出专有与开源LLM间的差距正灵敏缩小。阿联酋技术创新研究所透露,Falcon 180B正在继续1800亿参数的训练,计算本领强盛,已在多种NLP使命中逾越LLaMA 2和GPT-3.5。虽然免费供商业和研究使用,但运行Falcon 180B需要巨大计算资源。
XGen-7B
多家公司角逐LLM范畴,Salesforce推出XGen-7BLLM。不同于多数开源LLMs的有限信息大答案,XGen-7B支持更长上下文窗口。其高级版本XGen-7B-8K-base具备8K上下文窗口。只管使用7B参数训练,但XGen效率出色。尺寸虽小,但体现优秀,实用于商业和研究,但需注意,XGen-7B-{4K,8K}-inst版本为教学数据和RLHF训练,且以非商业许可发布。
GPT-NeoX 和 GPT-J
GPT-NeoX和GPT-J是EleutherAI实验室开发的GPT开源替代品,分别拥有200亿和60亿参数,只管参数少于其他LLMs,但仍能提供高精度结果。这两款模子颠末22个高质量数据集的训练,可广泛应用于不同范畴和用例。与GPT-3不同,它们未继续RLHF训练。GPT-NeoX和GPT-J可用于天然语言处理使命,如文本生成、情感分析以及研究和营销运动开发,并可通过NLP Cloud API免费获取。
Vicuna13-B
Vicuna-13B是开源对话模子,基于LLaMa 13B微调,训练数据来自ShareGPT的用户共享对话。它广泛应用于客户服务、医疗保健、教育、金融和旅游/酒店等行业。初步评估表现,Vicuna-13B在90%以上的案例中优于其他模子如LLaMa2和Alpaca。
Mistral 7B
Mistral 7B v0.2 预训练模子以 Mistral-7B-Instruct-v0.2 为底子,正式到场「Mistral Tiny」系列大家庭。此次更新带来了一系列显著的改进,包罗将上下文长度扩展至32K,Rope Theta 参数设定为1e6,并取消了滑动窗口。这些升级不仅提升了模子的处理本领和机动性,还确保了其在处理复杂使命时的高效性与准确性。
链接:https://mistral.ai/
零一万物
Yi系列模子是01.AI推出的强盛开源语言模子,以双语本领领先范畴。使用3T多语言语料库训练,具备卓越的语言理解、知识推理和阅读理解等本领。2024年1月数据表现,Yi-34B-Chat在AlpacaEval排名第二,仅次于GPT-4 Turbo,逾越其他LLM如GPT-4、Mixtral、Claude。在各种基准测试中,Yi-34B排名第一,逾越Falcon-180B、Llama-70B、Claude等开源模子。这使得Yi系列模子成为全球领先的LLM之一,展现出广阔的应用远景。
论文:https://arxiv.org/abs/2403.04652
链接:https://github.com/01-ai/Yi
怎样选择得当的开源LLM
开源LLM范畴正在快速发展,全球开发者携手改进和优化LLM版本,有望缩小性能差距。在选择开源LLM时,请思量以下因素,以找到最得当您需求的模子:
目标:明确您的目标,注意许可限定,选择得当商业用途的LLM。
需求:评估您是否真的需要LLM来实现想法,避免不必要的支出。
精度:大型LLMs通常更准确。若需要高精度,可思量LLaMA或Falcon等大型模子。
资金:大型模子资源斲丧大,需思量底子办法和云服务成本。
预训练模子:如有实用的预训练模子,可节流时间和款子。
结语
IT行业的汗青告诉我们,开源是软件范畴里的一大潮流,它推动了应用生态的繁荣。但自从GPT3出现后,Open AI却选择了闭源,这使得开源大模子的发展好像停滞在了GPT3.5的阶段。不过,业界照旧有一些不错的前沿开源大模子,好比Meta的LLaMA3、Mistral 8x7B和零一万物的Yi-34B等。
虽然开源模式在构建生态方面很给力,但由于算力和算法等方面的限定,它在大模子范畴的发展还充满了不确定性,乃至有人担心,开源模子会逐渐落伍。幸亏Llama 3的出现,给开源模子带来了一线希望。这场关于开源与闭源的辩论还在继续,咱们就拭目以待,看看开源和闭源将怎样共同塑造AI的未来吧!
那么,怎样系统的去学习大模子LLM?
我在一线互联网企业工作十余年里,引导过不少偕行后辈。资助许多人得到了学习和成长。
作为一名热心肠的互联网老兵,我意识到有许多经验和知识值得分享给大家,也可以通过我们的本领和经验解答大家在人工智能学习中的许多困惑,所以在工作繁忙的环境下照旧对峙各种整理和分享。
但苦于知识传播途径有限,许多互联网行业朋友无法得到正确的资料得到学习提升,故此将并将重要的AI大模子资料包罗
AI大模子入门学习思维导图、精品AI大模子学习册本手册、视频教程、实战学习等录播视频
免费分享出来。
所有资料 ⚡️ ,朋友们假如有需要全套 《
LLM大模子入门+进阶学习资源包
》,
扫码获取~
篇幅有限,部门资料如下:
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
南七星之家
金牌会员
这个人很懒什么都没写!
楼主热帖
详讲Java开发中的六个常用API(Math,S ...
鸿蒙到底是不是安卓?
BOS EDI 项目 Excel 方案开源介绍 ...
【K8S】K8S入门基础知识
MySQL并行复制(MTS)原理(完整版) ...
软件项目管理 3.5.敏捷生存期模型 ...
译:SQLServer 事务复制延迟诊断 ...
保姆级教程!玩转 ChunJun 详细指南 ...
java中Collections.addAll方法具有什么 ...
ArrayList分析2 :Itr、ListIterator以 ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表