Ollama 0.4 发布！支持 Llama 3.2 Vision，实现多模态 RAG

饭宝 · 2024-12-19 11:26:18

“
阅读本文大概必要5分钟。
前言

最近，Ollama 推出了 0.4 版本，其中最大的亮点就是支持了 Llama 3.2 Vision 模子，该模子具备多模态特性，也就是说能够理解图像并将图像纳入提示词中进行处理，让模子更智能地处理RAG中的数据源，实现强盛的视觉处理功能，例如：手写识别，准确读取手写内容；OCR识别，识别订单、账单等文档；图表与表格识别，解析各类数据；图像问答，实现图片内容的问答交互。
这种功能在之前的Ollama版本中是不支持的，因为Llama CPP不支持视觉模子。
在本篇文章中，我们就来体验一下这个“多模态”神器。
模子下载&运行

目前 Ollama 支持 11B 和 90B 的 Llama 3.2 Vision 模子，使用方式也很简单，使用 ollama pull/run 就能下载并运行模子：

ollama run llama3.2-vision

复制代码

运行较大的 90B Llama 3.2 Vision 模子：

ollama run llama3.2-vision:90b

复制代码

视觉能力测试

我们在终端运行Llama 3.2 Vision模子，并使用一些图像来测试大模子的视觉能力。
1. 识别物体

起首来个最简单的，让大模子回答图片中包罗哪些物品。
测试图片：

运行方式也比力简单，先输入你要提问的文本内容，再将图片路径给到大模子：

回答的效果看起来还是不错的，包罗了图片的根本元素，一瓶龙舌兰、装满冰块的杯子以及一瓶果汁，而且还对这些元素做了详细分析，包括颜色（red label、white letters、purple label）、文字（Sierra Tequila、Chinese charaters）等。
当然了，整个图片比力简单，对比度也比力强，比力清晰，所以大模子还是比力好识别的。
2. 流程图分析

加大难度，让模子识别流程图并描述出每一步调。
测试图片：

将流程图给到大模子，并让它拆解流程图中的每个步调：

回答效果也还行，每个步调也都很详细（很大原因是因为流程图使用的是英文，中文的话就一言难尽了）。
3. 图片数据分析

再加大难度，让模子识别图片中的数据信息，并进行分析和总结，图片内容包罗数字、中文、统计图等信息。
测试图片：

让大模子对图片内容进行分析，并在提示词中输入关键数字301和226：

这段Llama 3.2 Vision模子天生的回答还是比力详尽且有条理的，值得我们对回答结果做进一步分析：

信息提取的准确性
起首，模子相对准确地提取了图像中的关键信息，包括图片来源（The image presents a screenshot of an online news article or website, likely from China, providing real-time 大概来自中国的在线新闻文章或网站的截图）、候选人（Donald Trump (left) and Kamala Harris (right) 特朗普和哈里斯）、当前的得票情况（The current vote count is displayed in large numbers: 301 to 226、A small red triangle indicates that the Republican candidate has received 51% of the votes 票数和比例）、各州选举结果舆图（A map of the United States shows the electoral results by state, with each state colored either red (Republican) or blue (Democratic)）等。
层次分明的结构
回答将图片分为顶部（Top Section）、底部（Bottom Section）和附加元素（Additional Elements）三个部分描述，每部分重点突出。这种结构使内容条理清晰，便于读者快速理解每个部分的关键内容。
得当的细节出现
模子描述了图片中的细节，比如候选人党派标识（Republican elephant and Democratic donkey 共和党的大象和民主党的驴）、舆图的配色说明（red (Republican) or blue (Democratic)）、更新时间（“11月08日 17:30” (November 8th, 5:30 PM)）等。这些细节增强了内容的完备性和丰富性，更全面地还原了图像中的内容。
双语信息的兼容
尽管大模子对中文的理解有时令人一言难尽，但是在此示例中模子的回答指出了图片里中英文的存在，并且可以看出对简单中文的理解还是可以的。

在测试过程中，还是能发现一些不敷之处。例如，为了保证模子识别正确，我在提示词中加上了关键数字“301”和“226”，因为在没有这个提示词之前，模子错误地将数字识别成“3001”和“2266”。
别的，模子的回答内容略显冗长。虽然它覆盖了丰富的信息，但有时过于详尽，难以让用户一眼捉住重点。简化和精炼是提升可读性的紧张一步，我们可以引导模子聚焦于关键信息。
在配景信息方面，虽然模子识别了候选人得票情况，但并未提及候选人个人信息或配景，这对某些用户大概是紧张信息。为此，得当补充更丰富的数据源能够资助模子更全面地回答标题。
而在语言风格上，我们盼望模子能“去AI化”，通过提示词引导它使用更具感情和幽默的表达方式，使文本读起来更自然、密切。这样的调解尤其适合面向普通读者的内容，增强用户的阅读体验。
最后是中文支持方面，目前看来，Llama 的中文理解和表达还有提升空间。
大模子处理的速率和准确性跟图片本身的大小和分辨率也有很大的关系，并且以上三个栗子都是用的 Lllama 3.2 Vision 11B 模子测试，90B的模子效果应该更加良好，感爱好的小伙伴可以本身去实验一下。
总而言之，Llama 3.2 Vision 为当舆图像处理带来革命性突破，在将来也能够让 AI 视觉应用更智能、更高效。
以上，完。
脚踏实地，仰望星空，和坨坨一起学习软件测试，升职加薪！
如何学习大模子 AI ？

由于新岗位的生产服从，要优于被取代岗位的生产服从，所以实际上整个社会的生产服从是提升的。
但是具体到个人，只能说是：
“最先掌握AI的人，将会比力晚掌握AI的人有竞争优势”。
这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的原理。
我在一线互联网企业工作十余年里，引导过不少偕行子弟。资助许多人得到了学习和成长。
我意识到有许多履历和知识值得分享给大家，也可以通过我们的能力和履历解答大家在人工智能学习中的许多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识流传途径有限，许多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将紧张的AI大模子资料包括AI大模子入门学习头脑导图、精品AI大模子学习册本手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模子 AI有一个最前沿的认识，对大模子 AI 的理解凌驾 95% 的人，可以在相干讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 谈天，而你能调教 AI，并能用代码将大模子和业务衔接。

大模子 AI 醒目什么？
大模子是怎样获得「智能」的？
用好 AI 的焦点心法
大模子应用业务架构
大模子应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和焦点思想
Prompt 典范构成
指令调优方法论
头脑链和头脑树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模子 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完备的基于 agent 对话呆板人。掌握功能最强的大模子开发框架，捉住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的根本概念
什么是向量表现（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 体系的扩展知识
混合检索与 RAG-Fusion 简介
向量模子当地部署
…

第三阶段（30天）：模子练习

恭喜你，假如学到这里，你根本可以找到一份大模子 AI相干的工作，本身也能练习 GPT 了！通过微调，练习本身的垂直大模子，能独立练习开源多模态大模子，掌握更多技术方案。
到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模子
什么是模子练习
求解器 & 丧失函数简介
小实验2：手写一个简单的神经网络并练习它
什么是练习/预练习/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对环球大模子从性能、吞吐量、本钱等方面有肯定的认知，可以在云端和当地等多种环境下部署大模子，找到适合本身的项目/创业方向，做一名被 AI 武装的产物经理。

硬件选型
带你相识环球大模子
使用国产大模子服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在当地计算机运行大模子
大模子的私有化部署
基于 vLLM 部署大模子
案例：如何优雅地在阿里云私有部署开源大模子
部署一套开源 LLM 项目
内容安全
互联网信息服务算法存案
…

学习是一个过程，只要学习就会有挑衅。天道酬勤，你越努力，就会成为越良好的本身。
假如你能在15天内完成所有的任务，那你堪称天才。然而，假如你能完成 60-70% 的内容，你就已经开始具备成为一名大模子 AI 的正确特征了。
这份完备版的大模子 AI 学习资料已经上传CSDN，朋友们假如必要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

Ollama 0.4 发布！支持 Llama 3.2 Vision，实现多模态 RAG

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块