极客说|微软 Phi 系列小模子和多模态小模子

打印 上一主题 下一主题

主题 805|帖子 805|积分 2415

作者:胡平 - 微软云人工智能高级专家

「极客说」 是一档专注 AI 时代开发者分享的专栏,我们约请来自微软以及技术社区专家,带来最前沿的技术干货与实践经验。在这里,您将看到深度教程、最佳实践和创新解决方案。关注「极客说」,与行业顶尖专家一起探索科技的无限大概!
在人工智能领域,固然大模子(Large language model)在理解和生成自然语言方面体现出了很大的优势,在问答、翻译、文本生成等多种任务中展现了惊人的能力,但是随着模子规模的不停扩大,练习和运行这些大模子所需要的计算资源也日益告急,而且端侧的装备上的算力通常都是有限的,这在一定程度上限定了他们的广泛使用。我们的日常生活中存在着非常多的端侧装备,智能化家具家电,智能座舱等,都对端侧的模子的使用提出了要求。在如许的背景下,小模子(Small Language Models, SLMs)的研究就显得非常重要。小模子以其相对较小的规模和较低的计算算力需求,为资源有限的端侧装备环境提供了一种可行的解决方案。微软在小模子方面也持续举行了很长时间的研究,推出了 Phi 系列模子,证明了纵然在较小的模子规模下,也可以或许实现强盛的语言理解能力,生成能力,和多模态理解能力。

Phi-1


Phi-1 模子是这个系列的起点,它是一个基于 Transformer 架构的模子,拥有 1.3 亿参数。只管其规模相对较小,但 Phi-1 在 Python 编程任务上展现出了令人印象深刻的性能,特殊是在 HumanEval 和 MBPP 基准测试中,它的体现接近或超过了其时一些大型模子。


Phi-1.5


Phi-1.5 模子在 Phi-1 的基础上举行了进一步地优化和扩展。它同样拥有 1.3 亿参数,但在练习数据上举行了巨大改进,引入了专门用于教授模子常识推理和通用知识的新数据源。这些数据源包括科学、日常运动和心智理论等领域的教科书内容,以及从互联网上筛选出的高质量数据。Phi-1.5 在自然语言任务上的体现与比其大五倍的模子相称,甚至在更复杂的推理任务上超越了大多数非前沿的 LLMs。


Phi-2


Phi-2 的参数数量有 2.7 亿,模子通过创新的知识转移技术,在 Phi-1.5 的基础之上,通过从 Phi-1.5 中嵌入知识,加速了练习过程并提升了性能。这种知识转移方法不仅加速了练习过程的收敛,而且在基准测试中明显进步了 Phi-2 的得分。在 Phi2 提出的时间节点,在多个复杂基准测试中,Phi-2 可以或许匹配或超越比其规模大25倍的模子。别的,Phi-2 在安全性和偏见方面也有所改进。只管它没有经过人类反馈的强化学习对齐(RLHF)或指令微调,但与经过对齐的现有开源模子相比,Phi-2 在毒性和偏见方面的活动体现得更好。这归功于其定制的数据筛选技术,这种技术有助于减少模子生成有害内容的大概性。

 

Phi-3 系列


Phi3 系列有三个不同量级的小模子,分别叫做 Phi-3 mini, Phi-3 small 和 Phi-3 medium。
Phi-3-mini

Phi-3-mini 有 3.8B 的参数,3.3T token 的练习数据。它标配 4K 上下文,使用 LongRope 位置嵌入可拓展至 128K,即 Phi-3-mini-128k。在多个学术基准测试中,Phi-3-mini 性能接近或等同于市场上的大型模子,比方在 MMLU 测试中得分为 69%,在 MT-bench 测试中得分为 8.38 分。将 Phi-3-mini 量化(quantize)为 4-bits,其所需存储空间约为 1.8GB。测试中量化版 Phi-3-mini 在 iPhone 14 上的推理速度可达到 12 tokens/s。同时也可以将它部署在 Android 或者 HarmonyOS 操作系统的手机上,如下图4所示就是用 Ollama 在 HarmonyOS 上部署的量化版本的 Phi-3-mini 模子做问答任务时的截图。
Phi-3-small

Phi-3-small-7B 是 Phi3 系列新增的一个更大规模参数版本的Phi模子,参数 7.0B,但是 tokenizer 换成了 tiktoken,使之有更好的多语言能力,词汇表大小也拓展到了 100352,默认上下文长度是 8K,模子也有分组查询注意力机制(Group Query Attention,GQA),模子的数据练习量达到了 4.8万亿 tokens。
Phi-3-medium

Phi-3-medium 的参数有 14B,架构与最小的 Phi-3-mini-3.8B 相同,但是练习的 epoch 更多,练习的数据量和 Phi-3-small 一样,4.9万亿 tokens。
Phi-3-vision

别的,Phi3 系列还包含了一个 4.2B 参数的多模态模子,叫做 Phi-3-vision,融合了视觉和语言的功能。它是 Phi 系列中的首个多模态模子,可以或许联合文本和图像举行推理,从图像中提取和推理文本,还能优化对图表和图像的理解,用于生偏见解和答复,在小型模子中提供了出色的语言和图像推理质量。
将 Phi-3-vision 部署在 PC 的 CPU 上,采用的是 https://huggingface.co/microsoft/Phi-3-vision-128k-instruct-onnx  的模子版本,这里,通过 RTN 的 int4 量化得到 CPU 上运行的 onnx 版本的模子,其中,Phi-3-v-128k-instruct-text.onnx.data 有 2.33G,Phi-3-v-128k-instruct-vision.onnx.data 有 445M。用它来举行多模态的问答的测试结果如图5所示。这里给了模子带有雪山的汽车的图片,让 Phi-3-vision 根据画面举行描述,可以看到右侧生成的结果很好的描述了雪山的细节和车的细节。
别的,我们还对驾驶员有没有系安全带举行了测试,如图6和图7所示。我们分别选取了没有系安全带的司机和系安全带的司机来作为我们的输入图像,而且考虑到司机坐姿的不同,图像拍摄角度的不同和车型的不同,这里我们分别选取了有代表性的两类,公共汽车司机和小轿车司机。然后,我们以此作为输入,分别让 Phi-3-vision 来举行答复,图片中的司机是否系了安全带。这里为了验证模子的有用性,我们还变化了提问的 Prompt 的写法,一种写法是:Is the person in the picture wearing a seat belt? 另一种 Prompt 的问法是:Is there a seat belt?图6 和图7 的下面是通过 Phi-3-vision 模子得到的答复的结果,分别给出了公共机车司机没有系安全带,和小轿车司机系了安全带的正确答复。

Figure 4. 手机上跑 Phi-3-mini 做问答任务的截图


Figure 5. PC 上用 Phi-3-Vision 举行图像的问答测试

Figure 6. PC 上用 Phi-3-vision 举行公交司机是否系安全带的图像问答测试

Figure7. PC 上用 Phi-3-visio 举行轿车司机是否系安全带的图像问答测试


Phi-3.5 系列


Phi-3.5 系列小模子是最新一代的 Phi 系列小模子,该系列包括了 Phi-3.5-mini、Phi-3.5-MoE 和 Phi-3.5-vision 三个模子,分别针对轻量级推理、混合专家系统和多模态任务筹划。Phi 3.5 支持多种语言,包括阿拉伯语、中文、英语、法语、德语、日语、韩语和西班牙语等。它使用了组查询注意力机制,每个注意力头的 KV 缓存中使用 4 个查询共享 1 个键。为了进一步进步练习和推理速度,它使用了块希奇注意力模块,能根据不同的希奇模式有用地划分上下文,减少 KV 缓存的使用量。
Phi-3.5-mini

Phi-3.5-mini 指令微调模子有 3.8B 的参数,该模子专为遵守指令而筹划,支持快速推理任务。它支持 128K 上下文,适合处理长文本数据。适合在内存或计算资源受限的环境,来实行代码生成、数学题目求解和基于逻辑的推理任务等。在多语言和多轮对话任务中体现出色,而且在 RepoQA 基准测试中,测量“长上下文代码理解”的性能超越了其他类似大小的模子,如 Llama-3.1-8B-instruct 和 Mistral-7B-instruct。
Phi-3.5-MoE

Phi-3.5-MoE 有大约 41.9B 的参数,该模子采用了混合专家架构,也是微软Phi系列中的首个 MoE 模子,拥有 6.6B 运动激活参数,将多个不同范例的模子组合成一个,每个模子专门处理不同的任务。它支持 128k token 的上下文长度,适合处理复杂的多语言和多任务场景。在代码、数学和多语言理解方面体现出色,在 5-shot MMLU (大规模多任务语言理解)基准测试中,在 STEM、人文学科、社会科学等多个学科的不同层次上超越了 GPT-4o mini。
Phi-3.5-vision

Phi-3.5-vision 模子拥有 4.2B 的参数,集成了文本和图像处理功能,使其可以或许处理多模态数据。适用于图像理解、光学字符识别、图表和表格理解以及视频摘要等任务。由于支持 128K 标记上下文长度,特殊善于处理复杂的多帧视觉任务。Phi-3.5-vision 模子使用合成数据集和筛选后的公开数据集举行练习,重点放在高质量、推理密集的数据上,对于 TextVQA 和 ScienceQA 等任务,提供高质量的视觉分析。

基于 GPU 的推理部署和测试——以 Phi-3.5-vision 为例 


接下来,我们就以 Phi-3.5-vision 为例来实现一下它基于 GPU 的推理部署和测试。
先来看一下 Phi-3.5-vision 模子在 GPU 的部署。这里我们在 Azure Machine Learning 里创建了一台 A100 的 GPU,它已经自带了 cuda 和 anaconda 的环境设置。部署的时间,第一步先安装 swift,用如下的下令:
  1. git clone https://github.com/modelscope/ms-swift.git
  2. cd ms-swift
  3. pip install -e .[llm]
复制代码
之后,就可以用如下下令运行 Phi3_5-vision-instruct 的推理模子了:
  1. CUDA_VISIBLE_DEVICES=0 swift infer --model_type phi3_5-vision-instruct --use_flash_attn false
复制代码
推理模子运行起来之后,如图8所示。之后,就可以和模子举行问答的交互了,譬如,我们问它,who are you? 得到结果如图9所示,它会答复:I am Phi, an AI developed by Microsoft to assist with providing information, answering questions, and helping users find solutions to their queries. How can I assist you today? 这是我们和它举行文本问答的结果。

Figure 8. Phi3_5-vision-instruct 推理时的运行界面


Figure 9. 与部署的 Phi3_5-vision-instruct 模子举行文本问答的界面


我们也可以使用它的多模态能力,输入图片,得到答复。这里先用 +prompt 的输入格式,输入我们的文本提示词,同时提示模子我们还要输入图片,之后再输入图片的地址。图片地址可以是 http 链接,也可以是本地的图片路径。这里我们测试了多张不同范例的图片如图10、11所示。图10中,对不同的网络上的图片,一张是猫的,一张是兔子围着一盆饺子的,举行了详细的描述。左边是原图,右边是用 Phi3_5-vision-instruct 举行提问,输入图片网址链接,和得到结果的截图。图11是对于数学运算来举行计算的结果,可以看到对于整数的乘法的三个运算,结果都是正确的。当用 A100 的 GPU 跑 Phi3_5-vision-instruct 举行推理的时间,大概会产生 10G 的 GPU 显存占用,如图12所示。

Figure 10. 用 Phi3_5-vision-instruct 对不同的图片举行描述的多模态交互用例


Figure 11. 用 Phi3_5-vision-instruct 对图片中的数学公式举行计算的测试用例

 

Figure 12. 用 Phi3_5-vision-instruct 在 GPU 上做推理的时间的 GPU 占用


资料推荐


智能 GitHub Copilot 副驾驶® 提示和技巧
https://info.microsoft.com/GC-DevOps-CNTNT-FY25-08Aug-23-Smart-GitHub-Copilot-Tips-and-Tricks-SRGCM12801_LP01-Registration---Form-in-Body.html
Azure OpenAI 生成式人工智能白皮书
https://info.microsoft.com/GC-AzureAI-CNTNT-FY25-08Aug-21-Azure-OpenAI-Generative-Artificial-Intelligence-White-Paper-SRGCM12789_LP01-Registration---Form-in-Body.html
使用 AI 和 DevOps 重新定义开发职员体验
https://info.microsoft.com/ww-landing-redefining-the-developer-experience.html?lcid=ZH-CN
SAP on Microsoft Cloud
https://info.microsoft.com/GC-SAP-CNTNT-FY25-08Aug-27-SAP-on-Microsoft-Cloud-SRGCM12804_LP01-Registration---Form-in-Body.html

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

天空闲话

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表