2024年6月10日,在2024年WWDC全球开辟者大会上,苹果推出了Apple Intelligence,这是深度集成到iOS 18、iPadOS 18和macOS Sequoia中的个人智能体系。
为了让大模子能在 iPhone 端侧跑,苹果照旧做了许多事情的。接下来就跟大家先容一下苹果在端侧部署大模子的做法以及在呆板学习方面的一些研究。
端侧模子大小为 3B,在 iPhone 上延长为 6 毫秒,每秒可以输出 30 个 Token。使用 AXLearn 框架进行模子训练,并采用了多种并行化技术来提高训练效率。通过使用Lora来微调其底子模子,使其能够顺应用户的一样平常活动,而且能够即时调解以顺应特定任务。
Apple Intelligence先容
Apple Intelligence 由多个功能强盛的生成模子组成,这些模子专门用于用户的一样平常任务,并可以根据用户的当前活动进举措态调解。Apple Intelligence 内置的底子模子已针对用户体验进行了微调,比方编写和优化文本、确定关照的优先级和摘要、为与家人和朋友的对话创建风趣的图像,以及采取应用内操作以简化跨应用交互。
图 1:Apple 底子模子的建模概述。
在以下概述中,我们将详细先容其中两个模子(一个约 30 亿参数的设备语言模子,以及一个更大的基于服务器的语言模子,该模子可通过私有云盘算获得并在 Apple 硅服务器上运行)是如何构建和调解以高效、准确和负责任地实行专门任务的。这两个底子模子是 Apple 为支持用户和开辟人员而创建的更大的生成模子系列的一部分;这包罗一个用于在 Xcode 中构建智能的编码模子,以及一个用于资助用户以视觉方式表达自己的传播模子,比方在信息应用中。
专注于负责的人工智能开辟
Apple Intelligence 的设计每一步都秉承我们的核心价值观,并创建在突破性的隐私创新底子之上。
此外,我们还制定了一套负责任的人工智能原则来指导我们如何开辟人工智能工具及其支持模子:
- 为用户提供智能工具:我们确定可以负责任地使用人工智能的范畴,以创建满足特定用户需求的工具。我们尊重用户选择如何使用这些工具来实现他们的目标。
- 代表我们的用户:我们打造高度个性化的产品,旨在真实地代表全球用户。我们不绝努力避免在我们的 AI 工具和模子中一连刻板印象和体系性偏见。
- 经心设计:我们在流程的每个阶段都采取预防措施,包罗设计、模子训练、功能开辟和质量评估,以确定我们的 AI 工具大概被滥用或导致潜在危害的方式。我们将在用户反馈的资助下不绝自动改进我们的 AI 工具。
- 保护隐私:我们利用强盛的设备处理本领和突破性的底子办法(如私有云盘算)保护用户的隐私。在训练底子模子时,我们不会使用用户的私家个人数据或用户互动。
这些原则表如今实现 Apple Intelligence 的整个架构中,将功能和工具与专门的模子毗连起来,并扫描输入和输出,为每个功能提供负责任地运行所需的信息。
预训练
我们的底子模子是在Apple 的 AXLearn 框架上训练的,这是我们于 2023 年发布的一个开源项目。它创建在 JAX 和 XLA 之上,使我们能够在各种训练硬件和云平台上高效且可扩展地训练模子,包罗 TPU 以及云和本地 GPU。我们结合使用数据并行、张量并行、序列并行和完全分片数据并行 (FSDP) 来沿数据、模子和序列长度等多个维度扩展训练。
我们利用授权数据训练底子模子,包罗为加强特定功能而选择的数据,以及我们的网络爬虫 AppleBot 收集的公开数据。网络出书商可以通过数据使用控制选择不将其网络内容用于 Apple Intelligence 训练。
我们在训练底子模子时绝不会使用用户的私家个人数据或用户互动,而且会应用过滤器来删除网络上公开的个人身份信息,比方社保号和信用卡号。我们还会过滤脏话和其他低质量内容,以防止将其纳入训练语料库。除了过滤之外,我们还实行数据提取、重复数据删除和基于模子的分类器的应用,以辨认高质量文档。
训练后
我们发现数据质量对于模子成功至关重要,因此我们在训练流程中采用了混淆数据计谋,结合了人工解释数据和合成数据,并进行了彻底的数据管理和过滤程序。我们在训练后开辟了两种新算法:
- 带有教师委员会的拒绝抽样微调算法,以及 - - 带有镜像降落计谋优化和留一优势估计器的人工反馈强化学习 (RLHF) 算法。
我们发现这两种算法可以明显提高模子的指令遵循质量。
优化
除了确保我们的生成模子性能强盛之外,我们还采用了一系列创新技术,在设备和私有云上优化生成模子,以提高速度和效率。我们针对第一个 token 和扩展 token 推理性能应用了一系列优化措施。
设备和服务器模子均使用分组查询留意机制。我们使用共享的输入和输出词汇嵌入表来低落内存需求和推理本钱。这些共享的嵌入张量映射时不会出现重复。设备模子使用的词汇大小为 49K,而服务器模子使用的词汇大小为 100K,其中包罗额外的语言和技术标记。
对于设备端推理,我们使用低位托盘化,这是一项关键的优化技术,可满足须要的内存、功率和性能要求。为了保持模子质量,我们使用 LoRA 适配器开辟了一个新框架,该框架采用混淆 2 位和 4 位配置计谋(均匀每个权重 3.5 位),以实现与未压缩模子相同的准确度。
此外,我们使用交互式模子延长和功率分析工具Talaria来更好地指导每个操作的比特率选择。我们还利用激活量化和嵌入量化,并开辟了一种方法,以便在我们的神经引擎上实现高效的键值 (KV) 缓存更新。
通过这组优化,我们在 iPhone 15 Pro 上能够实现每个 token 约 0.6 毫秒的初次 token 延长,以及每秒 30 个 token 的生成率。值得留意的是,这一性能是在采用 token 推测技术之前实现的,从中我们可以看到 token 生成率的进一步提升。
图 2:适配器是覆盖在通用底子模子上的一小批模子权重。它们可以动态加载和交换,使底子模子能够针对手头的任务即时进行专门化。Apple Intelligence 包罗一组广泛的适配器,每个适配器都针对特定功能进行了微调。这是扩展底子模子功能的有效方法。
我们使用 16 位来表示适配器参数的值,对于约 30 亿个参数的设备模子,品级 16 适配器的参数通常须要数十兆字节。适配器模子可以动态加载、临时缓存在内存中并进行交换 - 使我们的底子模子能够即时专门处理手头的任务,同时高效管理内存并保证操作体系的响应本领。
为了方便适配器的训练,我们创建了一个高效的底子办法,使我们能够在底子模子或训练数据更新时快速重新训练、测试和部署适配器。使用优化部分中先容的准确度恢复适配器初始化适配器参数。
模子适配
我们的底子模子针对用户的一样平常活动进行了微调,并可以根据手头的任务动态地进行专门化。我们利用适配器(可插入预训练模子各个层的小型神经网络模块)来针对特定任务微调我们的模子。对于我们的模子,我们调解了留意矩阵、留意投影矩阵和点式前馈网络中的全毗连层,以顺应 Transformer 架构的一组合适的解码层。
通过仅对适配器层进行微调,底子预训练模子的原始参数保持不变,保存模子的一样平常知识,同时定制适配器层以支持特定任务。
绩效与评估
我们专注于提供生成模子,使用户能够通过 Apple 产品进行交流、工作、表达自己和完成任务。在对我们的模子进行基准测试时,我们专注于人工评估,由于我们发现这些效果与用户在我们产品中的体验高度相关。我们对特定功能的适配器和底子模子都进行了性能评估。
为了分析我们的方法,我们来看看我们如何评估我们的摘要适配器。由于电子邮件和关照摘要的产品要求在渺小但重要的方面有所不同,我们在托盘化模子的底子上微调了准确度恢复低秩 (LoRA) 适配器以满足这些特定要求。我们的训练数据基于从更大的服务器模子生成的合成摘要,并通过拒绝采样计谋进行过滤,仅保存高质量的摘要。
为了评估特定于产品的摘要,我们使用了一组针对每个用例经心采样的 750 个响应。这些评估数据集强调了我们的产品功能在生产中大概面临的各种输入,并包罗不同内容类型和长度的单个和堆叠文档的分层混淆。作为产品功能,根据代表现实用例的数据集评估性能非常重要。我们发现,与同类模子相比,带有适配器的模子可以生成更好的摘要。
作为负责任的开辟的一部分,我们辨认并评估了摘要固有的特定风险。比方,摘要偶然会以不良方式删除重要的渺小差异或其他细节。但是,我们发现摘要适配器在凌驾 99% 的目标对抗示例中并未放大敏感内容。我们将继续进行对抗性探索以辨认未知危害并扩大我们的评估范围,以资助指导进一步的改进。
图 3:两个摘要用例的“好”和“差”响应相对于所有响应的比例。根据评分者在五个维度上的得分,摘要被分为“好”、“中”、“差”。假如所有维度都很好(越高越好),则效果被归类为“好”。假如任何一个维度很差(越低越好),则效果被归类为“差”。我们的带有适配器的模子比同类模子生成更好的摘要。
除了评估由底子模子和适配器驱动的特定功能性能外,我们还评估基于设备和服务器的模子的一样平常功能。我们利用一套全面的真实天下提示评估集来测试一样平常模子功能。这些提示在不同难度级别上各不相同,涵盖头脑风暴、分类、封闭式问答、编码、提取、数学推理、开放式问答、重写、安全、总结和写作等重要种别。
我们将我们的模子与开源模子(Phi-3、Gemma、Mistral、DBRX)和同等规模的商业模子(GPT-3.5-Turbo、GPT-4-Turbo)1进行了比较。我们发现,与大多数同类竞争模子相比,我们的模子更受人类评分者的青睐。在这个基准测试中,我们的设备模子(约 3B 个参数)优于包罗 Phi-3-mini、Mistral-7B 和 Gemma-7B 在内的大型模子。我们的服务器模子与 DBRX-Instruct、Mixtral-8x22B 和 GPT-3.5-Turbo 相比毫不逊色,而且效率很高。
图 4:Apple 底子模子与同类模子的并排评估中首选答案的比例。我们发现我们的模子更受人类评分者的青睐。
我们使用一组不同的对抗性提示来测试模子在有害内容、敏感主题和毕竟性方面的表现。我们根据此评估集上的人工评分者评估每个模子的违规率,权衡违规率,数字越低越好。设备和服务器模子在面对对抗性提示时都表现稳健,违规率低于开源和商业模子。
图 5:针对有害内容、敏感话题和毕竟的违规回应比例(越低越好)。我们的模子在面对对抗性提示时非常稳健。
与竞争对手的模子相比,我们的模子在这些提示中更安全、更实用,因而受到人类评分者的青睐。然而,思量到大型语言模子的广泛功能,我们相识安全基准的局限性。我们正在积极与内部和外部团队进行手动和自动红队测试。
图 6:Apple 底子模子与安全提示方面的同类模子的并排评估中首选答案的比例。人类评分员发现我们的答案更安全、更有资助。
为了进一步评估我们的模子,我们使用指令遵循评估 (IFEval) 基准来将其指令遵循本领与同等规模的模子进行比较。效果表明,我们的设备和服务器模子都比同等规模的开源和商业模子更好地遵循详细的指令。
图 7:Apple 底子模子和同等大小模子的指令跟踪本领(用 IFEval 测量)(越高越好)。
我们根据内部摘要和写作基准(由各种写作分析组成)评估模子的写作本领。这些效果不涉及我们针对摘要的特定功能适配器(见图3),我们也没有专注于写作的适配器。
图8:内部总结和作文基准的写作本领(越高越好)。
结论
在 WWDC24 上推出的 Apple 底子模子和适配器是 Apple Intelligence 的底子,Apple Intelligence 是深度集成到 iPhone、iPad 和 Mac 中的全新个人智能体系,可在语言、图像、动作和个情面境方面提供强盛的功能。我们创建模子的目标是资助用户在 Apple 产品上进行一样平常活动,而且在每个阶段都负责任地进行开辟,并以 Apple 的核心价值观为指导。我们期待很快分享有关我们更广泛的生成模子系列的更多信息,包罗语言、扩散和编码模子。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |