2024 年最值得尝试的 8 个 AI 开源大模子

十念  金牌会员 | 2024-10-16 09:30:47 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 887|帖子 887|积分 2661


如果要将 LLM 按照是否开源来分别的话,那么,OpenAI 的 ChatGPT,Google 的 Gemini 这一类就属于闭源模子,也可以说是专有的 LLM,用户并不能深入到模子层面去使用,而是只能在基于模子的谈天应用层使用。
固然,尽管这些 LLM 提供了开放 API 给开发者,但是也只可以或许在一定的范围内举行调用和调试,并不能拥有对背后的模子的完全控制权。
而像 Llama 如许的模子就是属于开源模子,用户可以在本身的装备上部署、开发,甚至是微调。
相对于闭源模子,开源模子从成本、风险把控、定制化等多个方面,都有一定的上风。
所以,如果想要定制化属于本身的 LLM 或者只是尝试着在本身电脑上举行简易的部署和开发,开源 LLM 一定是第一选择。
本文将为你介绍 2024 年最值得尝试的 8 个开源 LLM。
开源 LLM 的利益

如上文所说,开源 LLM 的利益显而易见,接下来我将从以下方面来细化解说这些利益。
数据安全性和隐私掩护

固然,并不是说使用开源 LLM 就不存在数据泄漏的题目。
只是说,使用开源 LLM 的话,数据的管控都是由使用者完全控制。而如果使用闭源的 LLM,那么,这些风险其实是不可控的,而且,目前已经有多起有关于大公司使用个人或隐私数据来举行训练的争议了。
成本以及对供应商的依靠性

一般来说,闭源的 LLM 在使用其 API 的时候,都是需要购买或者按量计费的,比如 Kimi、ChatGPT,不同厂商的价格会有所区别。
而开源 LLM 通常都可以直接免费下载和使用。
   固然,在前期如果不考虑本身的硬件成本的情况下,开源 LLM 肯定是优于闭源的。如果涉及到在本身电脑或者服务器上举行微调或者推理的话,那可能就需要在硬件层面投入一定的成本了。
  代码透明性和模子定制化

由于开源 LLM 的源代码是公开透明的,所以可以直接查看它的工作原理,包括其架构、训练数据以及训练和推理机制,这种透明性也是定制化的基础。
活跃的社区和共建

大型开源项目的最大上风就是活跃的社区以及有大量优秀的开发者来参与共建。
如许的社区可以促进 LLM 的创新,改进模子,减少私见,进步模子的准确性和整体性能。
   比如 Llama 3,目前在 GitHub 上已经有 25.7k Star 了,链接:https://github.com/meta-Llama/Llama3
  接下来,我将依次介绍 8 个最值得尝试的开源 LLM。
Llama 3.1

   https://Llama.meta.com/
  Llama 3.1 于 2024 年 7 月 23 日发布,包罗 8B、70B,以及首次推出的 405B 参数模子。
这些模子被筹划用于处理多种天然语言处理任务,覆盖的语言包括英语、西班牙语、葡萄牙语、德语、泰语、法语、意大利语和印地语等。
Llama 3.1 模子支持大幅增长的上下文长度(128k),明显增强了模子处理和理解长篇文本的本事,在复杂推理任务中体现得更为精彩,并在较长的对话中保持上下文的一致性。
特殊是 405B 参数的模子在天生合成数据方面具有强大的本事,这些数据可以用于训练其他模子。
别的,该模子在知识蒸馏方面也具有上风,可以将其知识转移到更小、更高效的模子中。
BLOOM

   https://huggingface.co/bigscience/bloom
  

BLOOM 是一个自回归的 LLM,通过海量的文本数据和工业级的计算资源举行训练,可以或许在提示语的基础上天生连续的文本。
BLOOM 可以或许天生 46 种语言和 13 种编程语言的连贯文本,几乎与人类书写的文本难以区分。
别的,BLOOM 还可以在没有明确训练的情况下,将任务转化为文本天生任务,执行各种文本处理任务。
MPT-7B

   https://huggingface.co/mosaicml/mpt-7b
  MPT-7B 是一个仅解码的 Transformer 模子,由 MosaicML 从零开始预训练,处理了 1 万亿个英语文本和代码 tokens。
它属于 MPT (MosaicPretrainedTransformer) 模子家族,这些模子使用了一种经过修改的 Transformer 架构,专为高效训练和推理举行了优化。
MPT-7B 的架构改进包括性能优化的层实现,并通过用线性偏差注意力(ALiBi)替代位置嵌入,消除了上下文长度的限定。
这些改进使 MPT 模子可以或许以高吞吐量和稳定的收敛性举行训练,并能有用地与 HuggingFace 管道和 NVIDIA 的 FasterTransformer 集成举行推理。
模子的有以下特点:


  • 贸易许可:与 Llama 不同,MPT-7B 允许贸易用途。
  • 庞大的数据训练:模子训练数据量到达 1 万亿 tokens。
  • 处理超长输入:得益于 ALiBi,MPT-7B 可以处理极长的输入。
  • 快速训练与推理:通过 FlashAttention 和 FasterTransformer 提供快速的训练和推理本事。
  • 高效的开源训练代码:MPT-7B 提供了高效的开源训练代码,位于 llm-foundry 堆栈中,链接为:https://github.com/mosaicml/llm-foundry
Falcon 40B

   Falcon 40B: https://huggingface.co/tiiuae/falcon-40b
  Falcon-40B 是一个由 TII(Technology Innovation Institute)构建的因果解码模子,拥有 40B 参数,训练数据包罗 1,0000 亿个精炼网页和精选语料库的 tokens。
它在 Apache 2.0 许可下发布,允许贸易用途,无需支付版税或面对限定。
Falcon-40B 在开放范畴体现卓越,被以为是目前最好的开源模子。相比其他开源模子,如 Llama、StableLM、RedPajama 和 MPT,Falcon-40B 具有明显的上风。
这得益于其架构的优化,尤其是在推理方面,使用了 FlashAttention 和多查询(Multiquery)机制。
此模子是一个预训练的原始模子,适合大多数应用场景下的进一步微调。如果需要适合吸收通用指令的谈天格式版本,可以参考 Falcon-40B-Instruct(https://huggingface.co/tiiuae/falcon-40b-instruct)。
FLUX.1

   https://huggingface.co/black-forest-labs/FLUX.1-dev, Flux.1 系列模子包罗 FLUX.1 [pro], FLUX.1 [dev] 和 FLUX.1 [schnell],可以在 HuggingFace 上找到。
  FLUX.1 是刚发布不久的文生图模子,甚至有人说它的性能凌驾了 Midjourney。
FLUX.1 [pro]

这是 FLUX.1 系列中的顶级版本,提供开始进的图像天生性能,具有卓越的提示语响应、视觉质量、图像细节和输出多样性。
用户可以通过 API 访问 FLUX.1 [pro],该模子也可以通过 Replicate 和 fal.ai 使用。别的,FLUX.1 [pro] 还可以或许为企业提供定制办理方案。
FLUX.1 [dev]

这是一个开源权重模子,专为非贸易应用筹划。
FLUX.1 [dev] 是从 FLUX.1 [pro] 直接蒸馏而来,具备雷同的质量和提示语响应本事,同时服从更高。
FLUX.1 [dev] 的权重可以在 HuggingFace 上找到,也可以在 Replicate 或 fal.ai 上直接试用。
FLUX.1 [schnell]

这是 FLUX.1 系列中最快的模子,专为本地开发和个人使用而筹划。
FLUX.1 [schnell] 在 Apache 2.0 许可下开放,权重可在 HuggingFace 获取,推理代码可以在 GitHub 和 HuggingFace 的 Diffusers 中找到。别的,该模子与 ComfyUI 实现了集成。
Phi-2

   https://huggingface.co/microsoft/phi-2
  Phi-2 是一个拥有 2.7B 参数的 Transformer 模子,其训练数据与 Phi-1.5 相同,但增长了新的数据源,包括各种 NLP 合成文本和经过筛选的网站内容(确保安全性和教育价值)。
在评估常识、语言理解和逻辑推理的基准测试中,Phi-2 在 13B 参数以下的模子中体现最好。
与某些其他模子不同,Phi-2 并未通过人类反馈的强化学习举行微调。
此开源模子的开发目的是为研究社区提供一个不受限定的小型模子,用来探索关键的安全相关的题目,比如减少有害内容、理解社会私见、增强模子可控性等。
Gemma-7B

   https://huggingface.co/google/gemma-7b
  Gemma 是 Google 推出的一系列轻量级、先辈的开源模子家族,这些模子基于与 Gemini 模子相同的技能开发。
Gemma 是文本到文本的、仅解码的大型语言模子,重要提供英语版本,并开放了模子权重,包罗预训练的变体和指令微调的变体。
Gemma 模子非常适合用于各种文本天生任务,例如问答、择要天生和推理。
Gemma 模子的规模相对来说不算大,可以部署在资源有限的情况中,例如个人电脑或个人云基础设施上。
Whisper large-v3

   https://huggingface.co/openai/whisper-large-v3
  Whisper-large-v3 是一个用于自动语音识别 (ASR) 和语音翻译的预训练模子,由 OpenAI 开发。
这个模子基于 Transformer 架构的编码器-解码器筹划,可以或许处理多种语言,且无需举行微调即可执行任务。
Whisper-large-v3 的目的是通过大规模弱监督学习,实现对语音数据的稳健识别。
这个模子的强大之处在于其零样本场景下的泛化本事,使得它在无需特定命据集微调的情况下,可以或许处理来自不同范畴的任务。
选择适合本身的 LLM

开源 LLM 的发展速度非常快,目前在 HuggingFace 上,一共有八十多万的开源 LLM。
所以,怎样选择适合本身的 LLM 就显得尤为重要了。可以从以下几点来考虑:


  • • 你需要用 LLM 做什么?
  • • 你需要的准确性怎样?
  • • 你愿意在硬件设施上投入多少资金?
  • • 预训练模子是否就可以或许满足需求?
总结

本文只提及了 8 个值得尝试的开源 LLM,如果想要学习和尝试更多的 LLM,可以去 HuggingFace 上查看,这里集结了大量的优秀模子。
初期不建议投入大量资金到硬件设施上,个人学习的话,完全可以从小型的模子开始(比如 Llama 3.1 的 8B 模子、Phi-2 的 2.7B 模子),熟悉之后再选择更大的模子。
那么,怎样体系的去学习大模子LLM?

我在一线互联网企业工作十余年里,指导过不少同行子弟。帮助很多人得到了学习和成长。
作为一名热心肠的互联网老兵,我意识到有很多履历和知识值得分享给大家,也可以通过我们的本事和履历解答大家在人工智能学习中的很多狐疑,所以在工作繁忙的情况下还是坚持各种整理和分享。
但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模子资料包括AI大模子入门学习头脑导图、精品AI大模子学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
所有资料 ⚡️ ,朋友们如果有需要全套 《LLM大模子入门+进阶学习资源包》,扫码获取~

篇幅有限,部分资料如下:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

十念

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表