论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
ToB企服应用市场:ToB评测及商务社交产业平台
»
论坛
›
数据库
›
SqlServer
›
开源中文类LLaMA大语言模型汇总
开源中文类LLaMA大语言模型汇总
张国伟
金牌会员
|
2024-8-18 02:51:47
|
显示全部楼层
|
阅读模式
楼主
主题
774
|
帖子
774
|
积分
2322
LLaMA可以说是今年最受欢迎的大语言模型之一,LLaMA的开源动员了大语言模型社区的兴起,许多模型例如Vicuna、Alpaca等应运而生。
然而,由于LLaMA是英文原生模型,对中文的支持较弱,因此练习中文模型需要额外的练习和对齐。本文先容了笔者在调研过程中整理的一些具有代表性的基于LLaMA中文开源模型,供读者对比这些方案的异同。
背景
在2023年开源大模型排行榜中,LLaMA占据了绝对的榜首职位。由于它使用多达14000亿tokens语料练习,以较小的模型(13B)超过了GPT3(175B)的性能,引起了社区的极大关注。
围绕LLaMA构建的LLM开源社区也随之兴起,此中有对话模型Alpaca、Vicuna,推理框架llama.cpp,练习框架Transformers、 Lighting,应用层框架text-generation-webui、LangChain、ChatLLaMA等都对LLaMA模型举行了适配。因此选用LLaMA模型举行二次开发,不但有大量现成的解决方案可以参考,在应用层也有许多工具可以直接使用,这为大语言研究和落地带来了源源不断的动力。
然而,汉语作为一种世界互联网中的“小众”语言(仅占总体量约5%),大模型构建时往往不会针对汉语举行计划,例如ChatGPT的汉语本事远弱于英文本事,而LLaMA词表中仅包含少量汉字,并且险些没有在中文上举行练习。为了在中文上使用LLaMA强大的语言本事,许多研究者提出了相应的解决方案。本文主要盘货中文LLaMA模型,供读者对比这些工作的异同,从而选择更加合适的模型。(按模型发布的时间顺序举行先容)
Chinese-LLaMA-Alpaca (2023/03/28)
GitHub地址
由哈工大-科大讯飞联合实验室发布,该项目发布了基于LoRA练习的7B和13B 中文LLaMA模型和指令精调的Alpaca模型。其主要特点为,在LLaMA原版词表上,对中文举行了扩充和增量预练习,能够更加有效对中文分词,如下图所示:
在性能方面,由于该项目使用LoRA练习(仅练习模型少量参数),因此理论上性能上线低于全参数练习的模型。在目前的SuperCLUE琅琊榜( https://www.superclueai.com/ )测评中,该模型也处于靠后的位置(15名)
Linly(2023/03/28)
GitHub地址
伶荔-Linly由深圳大学-大数据体系计算技能国家工程实验室发布,提供对话模型 ChatFlow 、基础模型Chinese-LLaMA 。Linly项目标主要特点为,利用文本翻译数据,将LLaMA在英文上强大语言本事迁徙到中文上
为了尽大概提升模型效果,Linly模型没有选择扩充词表,而是直接在LLaMA基础上全参数练习。在重新练习的Linly-OpenLLaMA中,在中文上练习了字词结合tokenizer,并以Apache 2.0 协议开源。
BELLE(2023/04/19)
GitHub地址
由LianjiaTech发布包括在LLaMA7B基础上增量预练习扩展中文词表的模型,以及基于多样化开源数据练习后的LLaMA-7B模型。该项目提供以LLaMA、BLOOM为底座的多种中文模型以及对应练习数据。此外,还提供具体的分析报告,首次在中文场景上分析了LoRA、词表扩充、数据规模等变量产生的性能影响,对后续研究提供了有代价的依据。
Ziya-LLaMA(2023.05.17)
huggingface
IDEA研究院发布的姜子牙通用大模型(Ziya-LLaMA-13B-v1),基于LLaMA-13B扩充中文词表,举行千亿token量级的预练习,使模型具备中文本事。再经过500万条多任务样本的有监督微调(SFT)和人类反馈练习(RM+PPO+HFFT+COHFT+RBRS)获得对话本事
与模型一同提供的还有一个评估集。评估集包括常识类问答、推理、自然语言明白任务、数学、写作、代码、翻译、角色扮演9大类任务,32个子类,共计185个问题
BiLLa (2023.5.11)
GitHub地址
推理本事增强的中英双语LLaMA模型。主要特点为:1.提升LLaMA的中文明白本事,并尽大概减少对原始LLaMA英文本事的损伤;2. 练习过程增加较多的任务型数据,利用ChatGPT生成解析,强化模型明白任务求解逻辑;3. 全参数练习
实验效果表明,该项目确实强化了模型的推理本事,但是捐躯了其他方向的性能,例如常识类、强知识类、时势类的问题,更像是捐躯了模型原来内化的知识,来增强了推理本事
如何体系的去学习大模型LLM ?
大模型期间,火爆出圈的LLM大模型让程序员们开始重新评估本身的本事。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。
究竟上,
抢你饭碗的不是AI,而是会利用AI的人。
继科大讯飞、阿里、华为等巨头公司发布AI产品后,许多中小企业也连续进场!
超高年薪,挖掘AI大模型人才!
现在大厂老板们,也更倾向于会AI的人,普通程序员,还有应对的机会吗?
与其焦虑……
不如成为「掌握AI工具的技能人」,毕竟AI期间,
谁先尝试,谁就能占得先机!
但是LLM相关的内容许多,现在网上的老课程老课本关于LLM又太少。以是现在小白入门就只能靠自学,学习成本和门槛很高。
针对所有自学碰到困难的同砚们,我帮大家体系梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型册本、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等,
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
正序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
发新帖
回复
张国伟
金牌会员
这个人很懒什么都没写!
楼主热帖
MyBatis 查询数据库
JAVA 装箱拆箱--到底指什么呢? ...
HarmonyOS(鸿蒙)开发一文入门 ...
Prometheus配置Basic Auth进行安全防护 ...
XAF新手入门 - 类型子系统(Types Info ...
ThinkPHP5 远程命令执行漏洞
MySQL与Java常用数据类型的对应关系 ...
红日安全内网渗透靶场-VulnStack-1 ...
浅入浅出 1.7和1.8的 HashMap
Jmeter软件测试,这一篇就够了 ...
标签云
挺好的
服务器
快速回复
返回顶部
返回列表