反转基因福娃 发表于 2024-10-18 11:52:30

Llama 3.2开源中小型视觉 LLM(11B 和 90B)和轻量级纯文本模子(1B 和 3B

目录
要点
1前言
2熟悉 LLAMA 3.2
3模子评估
4视觉模子
5轻量级模子
6LLAMA栈分布
7体系级安全
8立刻试用 LLAMA 3.2
https://img-blog.csdnimg.cn/img_convert/2c177c20e0e456b053fd8557b20f10f2.png
要点

1.今天,Meta发布了 Llama 3.2,此中包罗实用于边缘和移动装备的中小型视觉 LLM(11B 和 90B)和轻量级纯文本模子(1B 和 3B),包罗预训练和教学调解版本。
2.Llama 3.2 1B 和 3B 模子支持 128K 令牌的上下文长度,是同类产物中开始进的,实用于在边缘本地运行的装备端使用案例,比方摘要、指令跟踪和重写任务。这些模子在第一天就为 Qualcomm 和 MediaTek 硬件启用,并针对 Arm 处理器进行了优化。
3.在广泛的生态体系的支持下,Llama 3.2 11B 和 90B 视觉模子是其相应文本模子等效项的直接替代品,同时与 Claude 3 Haiku 等封闭模子相比,在图像理解任务方面体现出色。与其他开放式多模态模子差别,预训练模子和对齐模子都可以使用 torchtune 针对自界说应用程序进行微调,并使用 torchchat 在本地摆设。他们也可以使用Meta的智能助手Meta AI 进行尝试。
4.Meta将分享第一个官方 Llama Stack 发行版,简化开发职员在差别环境(包罗单节点、本地、云和装备上)中使用 Llama 模子的方式,从而实现检索加强天生 (RAG) 和具有集成安全性的启用工具的应用程序的交钥匙摆设。
5.Meta在与 AWS**、Databricks、Dell Technologies、Fireworks、**Infosys 和 Together AI 等合作同伴密切合作,为他们的下游企业客户构建 Llama Stack 发行版。装备上分发通过PyTorch ExecuTorch 进行,单节点分发通过 Ollama 进行。
6.Meta分享Meta的工作,因为Meta信赖开放性可以推动创新,对开发者、Meta 和世界都有利益。Llama 已经在开放性、可修改性和本钱效益方面处于领先地位,使更多人能够使用天生式 AI 获得创造性、有效和改变生存的突破。
7.Meta正在 llama.com 和 Hugging Face 上提供 Llama 3.2 模子下载,并可在Meta广泛的合作同伴平台生态体系上立刻开发,包罗 AMD**、AWS、Databricks、Dell、Google Cloud、Groq、IBM、Intel、Microsoft Azure、NVIDIA、Oracle Cloud、**Snowflake 等。
1 前言

Llama 3.1模子群包罗 405B——第一个开放的前沿级 AI 模子。虽然这些模子非常强盛,Meta以为,使用它们进行构建须要大量的盘算资源和专业知识。Meta也收到了开发职员的反馈,他们无法访问这些资源,但仍希望有机遇使用 Llama 进行构建。正如 Meta 创始人兼首席执行官马克扎克伯格今天在 Connect 上分享的那样,他们不必再等候了。今天,Meta发布了 Llama 3.2,此中包罗适合特定边缘和移动装备的中小型视觉 LLM(11B 和 90B)和轻量级纯文本模子(1B 和 3B)。
自Meta首次公布 Llama 以来,只有一年半的时间,Meta在云云短的时间内取得了令人难以置信的进展。今年,Llama 实现了 10 倍的增长,成为负责任创新的尺度。Llama 在开放性、可修改性和本钱服从方面也继续处于领先地位,并且与封闭模式相比具有竞争力,乃至在某些范畴处于领先地位。Meta信赖开放性可以推动创新,是正确的前进道路,这就是Meta继续与合作同伴和开发职员社区分享Meta的研究并合作的原因。
Meta正在提供 Llama 3.2 模子,供 llama.com 和 Hugging Face 下载,并可在Meta广泛的合作同伴平台生态体系上立刻开发。合作同伴是这项工作的告急组成部分,Meta已经与凌驾 25 家公司合作,包罗AMD、AWS、Databricks、Dell、Google Cloud、Groq、IBM、Intel、Microsoft Azure、NVIDIA、Oracle Cloud 和 Snowflake,以便在第一天就启用服务。对于 Llama 3.2 版本,Meta还与装备合作同伴 Arm、MediaTek 和 Qualcomm 合作,在发布时提供广泛的服务。从今天开始,Meta还将向社区提供 Llama Stack。有关最新版本的更多详细信息,包罗有关欧洲多式联运可用性的信息,请参阅Meta的可接受使用政策。
2 熟悉 Llama 3.2
Llama 3.2系列中最大的两个模子 11B 和 90B 支持图像推理使用案例,比方文档级理解(包罗图表和图形)、图像字幕和视觉接地任务(比方根据天然语言描述定向精确定位图像中的对象)。比方,一个人可以问一个题目,关于他们的小企业在上一年的哪个月销售额最好,然后 Llama 3.2 可以根据可用图表进行推理并快速提供答案。在另一个示例中,该模子可以使用舆图进行推理并帮助答复诸如徒步旅行何时会变得更陡峭或舆图上标志的特定路线的距离等题目。11B 和 90B 型号还可以通过从图像中提取细节、理解场景,然后制作一两个可用作图像标题的句子来帮助讲述故事,从而弥合视觉和语言之间的差距。
轻量级 1B 和 3B 型号具有强盛的多语言文本天生和工具调勤劳能。这些模子使开发职员能够构建个性化的装备端署理应用程序,这些应用程序具有很强的隐私性,数据永远不会离开装备。比方,如许的应用程序可以帮助汇总收到的最后 10 条消息,提取操纵项,并使用工具调用直接发送日历约请以进行后续集会。
在本地运行这些模子有两个主要优势。首先,提示和响应大概会让人感觉是即时的,因为处理是在本地完成的。其次,在本地运行模子不会将消息和日历信息等数据发送到云中,从而掩护隐私,从而使整个应用程序更加私密。由于处理是在本地处理的,因此应用程序可以清晰地控制哪些查询保留在装备上,哪些查询大概须要由云中的更大模子处理。
3 模子评估
Meta的评估表明,Llama 3.2 视觉模子在图像辨认和一系列视觉理解任务方面与领先的基础模子 Claude 3 Haiku 和 GPT4o-mini 具有竞争力。3B 模子在遵循说明、总结、提示重写和工具使用等任务上优于Gemma 2 2.6B 和 Phi 3.5-mini 模子,而 1B 模子与 Gemma 竞争。
Meta评估了 150 多个涵盖多种语言的基准数据集的性能。对于视觉 LLM,Meta评估了图像理解和视觉推理的基准性能。
https://img-blog.csdnimg.cn/img_convert/08530cf55df484071cdc9e58876bd6c8.png
https://img-blog.csdnimg.cn/img_convert/14224127c4f1db827f7504941bf07fc6.png
4 视觉模子
作为第一款支持视觉任务的 Llama模子,11B和 90B模子须要一种支持图像推理的全新模子架构。 为了添加图像输入支持,Meta训练了一组适配器权重,这些权重将预先训练的图像编码器集成到预先训练的语言模子中。该适配器由一系列交织注意层组成,这些层将图像编码器体现形式馈送到语言模子中。Meta在文本-图像对上训练适配器,以使图像体现与语言体现对齐。在适配器训练期间,Meta还更新了图像编码器的参数,但故意没有更新语言模子参数。通过如许做,Meta保持了所有纯文本功能不变,为开发职员提供了 Llama 3.1 模子的直接替代品。 Meta的训练管道由多个阶段组成,从预训练的 Llama 3.1 文本模子开始。首先,Meta添加图像适配器和编码器,然后对大规模噪声(图像、文本)对数据进行预训练。接下来,Meta使用中等规模的高质量域内和知识加强(图像、文本)对数据进行训练。
Meta****的训练流水线由多个阶段组成,从预训练的 Llama 3.1 文本模子开始。首先,Meta添加图像适配器和编码器,然后对大规模噪声(图像、文本)对数据进行预训练。接下来,Meta使用中等规模的高质量域内和知识加强(图像、文本)对数据进行训练。
在后训练中,Meta使用与文本模子雷同的配方,对监督微调、拒绝采样和直接偏好优化进行几轮对齐。Meta通过使用 Llama 3.1 模子在域内图像之上筛选和加强题目和答案来使用合成数据天生,并使用奖励模子对所有候选答案进行排名,以提供高质量的微调数据。Meta还添加了安全缓解数据,以天生具有高安全性的模子,同时保留模式的有效性
最闭幕果是一组模子,这些模子可以同时接受图像和文本提示,并深入理解和推理组合。这是 Llama 模子朝着具有更丰富的署理本领迈出的又一步。
5 轻量级模子
正如Meta在 Llama 3.1 中讨论的那样,可以使用强盛的引导模子来创建性能更高的更小模子。Meta在1B 和 3B 型号上使用了两种方法(修剪和蒸馏),使它们成为第一款可以高效安装在装备上的高性能轻量级 Llama 型号。
修剪使Meta能够减小 Llama 群中现有模子的巨细,同时尽大概多地规复知识和性能。对于 1B 和 3B 模子,Meta采取了 Llama 3.1 8B 中以单次方式使用结构化修剪的方法。这涉及体系地删除网络的某些部分,并调解权重和梯度的巨细,以创建更小、更高效的模子,从而保留原始网络的性能。
知识蒸馏使用较大的网络在较小的网络上传授知识,其理念是较小的模子可以使用教师实现比从头开始更好的性能。对于 Llama 3.2 中的 1B 和 3B,Meta将 Llama 3.1 8B 和 70B 模子的 logit 合并到模子开发的预训练阶段,此中这些较大模子的输出 (logit) 被用作令牌级目标。修剪后使用知识蒸馏来规复性能。
在后训练中,Meta使用与 Llama 3.1 雷同的配方,并通过在预训练模子上进行几轮对齐来天生终极聊天模子。每一轮都涉及监督微调 (SFT)、拒绝采样 (RS) 和直接偏好优化 (DPO)。
在后训练中,Meta将上下文长度支持扩展到 128K 个令牌,同时保持与预训练模子相同的质量。Meta还到场合成数据的天生,通过仔细的数据处理和过滤来确保高质量。Meta仔细肴杂数据,以优化摘要、重写、指令遵循、语言推理和工具使用等多种功能的质量。
https://img-blog.csdnimg.cn/img_convert/469304a7a542c70173def6766635cd50.png
为了让社区能够在这些模子上进行创新,Meta与环球排名前两位的移动片上体系 (SoC) 公司****Qualcomm 和 Mediatek 以及为 99% 的移动装备提供基础盘算平台的 Arm **密切合作。**今天发布的权重基于 BFloat16 数字。Meta的团队正在积极探索运行速度更快的量化变体,Meta希望尽快分享更多相干信息。
6 Llama****栈分布
7月,Meta****发布了 关于 Llama Stack API 的评论请求,这是一个用于规范工具链组件(微调、合成数据天生)的尺度化接口,用于自界说 Llama 模子和构建署理应用程序。到场度很高。
从当时起,Meta一直在努力使 API 成为现实。Meta构建了用于推理、工具使用和 RAG 的 API 的参考实现。此外,Meta一直在与合作同伴合作,使他们成为 API 的提供者。最后,Meta引入了 Llama Stack Distribution 作为打包多个 API 提供者的方法,这些 API 提供者可以很好地协同工作,为开发职员提供单个端点。Meta现在与社区分享一种简化且同等的体验,使他们能够在多个环境(包罗本地、云、单节点和装备)中使用 Llama 模子。
全套版本包罗:
1.用于构建、配置和运行 Llama Stack 发行版的 Llama CLI(下令行界面)
2.多种语言的客户端代码,包罗 python、node、kotlin 和 swift
3.实用于 Llama Stack Distribution Server 和 Agents API Provider 的 Docker 容器
4.多个发行版
▪通过 Meta 内部实现和 Ollama 进行单节点 Llama 堆栈分发
▪通过 AWS、Databricks、Fireworks 和 Together 的 Cloud Llama Stack 发行版
▪通过 PyTorch ExecuTorch 实现的 iOS 装备上的 Llama 堆栈分发
▪Dell 支持的本地 Llama 堆栈分发
Meta期待与开发职员和合作同伴合作,简化使用 Llama 模子进行构建的各个方面,并欢迎反馈。
https://img-blog.csdnimg.cn/img_convert/4bda2acd2c8c85d2e0bf122ecc1dc0df.png
7体系级安全
采取开放的方法有很多利益。它有助于确保世界各地的更多人能够获得 AI 提供的机遇,防止权力会合在少数人手中,并在整个社会中更公平、更安全地摆设技能。随着Meta不停创新,Meta还希望确保Meta使开发职员能够构建安全且负责任的体系。
基于Meta之前的版本和支持负责任的创新的一连努力,今天Meta将为Meta的掩护措施系列添加新的更新:
•首先,Meta将发布 Llama Guard 3 11B Vision,它旨在支持 Llama 3.2 的新图像理解功能,并筛选文本+ 图像输入提示或对这些提示的文本输出响应。
•其次,随着Meta发布了 1B 和 3B Llama 模子以用于更受限的环境(如装备上),Meta还优化了Llama Guard,以大幅降低其摆设本钱。Llama Guard 3 1B 基于 Llama 3.2 1B 模子,并经过修剪和量化,使其巨细从 2858 MB 降至 438 MB,使其摆设服从比以往任何时间都高。
https://img-blog.csdnimg.cn/img_convert/8fafe1dcb1455147b85bc6911ba05550.png
这些新的办理方案已集成到Meta的参考实施、演示和应用程序中,并可供开源社区在第一天使用.
8 试用 Llama 3.2
Llama 3.2已准备好覆盖比以往更多的人,并支持令人兴奋的新用例。Meta以为,与开源社区共享这些模子是不够的。Meta希望确保开发职员也拥有负责任地使用 Llama 进行构建所需的工具。作为Meta一连负责任发布工作的一部分,Meta将为开发职员提供新的工具和资源,并且一如既往,Meta将在负责任使用指南中更新最佳实践。
Meta继续分享 Llama 生态体系的最新进展,因为Meta信赖开放性可以推动创新,对开发者、Meta 和世界都有利益。Meta很高兴能继续与合作同伴和开源社区进行对话,与往常一样,Meta迫不及待地想看看社区使用 Llama 3.2 和 Llama Stack 构建了什么。
这项工作得到了__Meta__在 AI _社区的合作同伴的支持。__Meta__要感谢并感谢(按字母顺序分列):埃森哲、AMD、Arm、AWS、Cloudflare、Databricks、戴尔、德勤、Fireworks.ai、Google Cloud、Groq、Hugging Face、IBM watsonx、Infosys、英特尔、Kaggle、遐想、LMSYS、联发科、Microsoft Azure、NVIDIA、OctoAI、Ollama、Oracle Cloud、普华永道、高通、Sarvam AI、Scale AI、Snowflake、_Together AI 和加州大学伯克利分校 - vLLM 项目。
怎样学习AI大模子 ?

“开始掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在盘算机、互联网、移动互联网的开局时期,都是一样的原理。
我在一线互联网企业工作十余年里,引导过不少偕行后辈。帮助很多人得到了学习和成长。
我意识到有很多履历和知识值得分享给各人,故此将并将告急的AI大模子资料包罗AI大模子入门学习思维导图、精品AI大模子学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【包管100%免费】
页: [1]
查看完整版本: Llama 3.2开源中小型视觉 LLM(11B 和 90B)和轻量级纯文本模子(1B 和 3B