Ollama 更新!手把手教你用Ollama轻松搭建Llama 3.2 Vision + 视觉RAG体系
在本文中,我将介绍Ollama近来对Llama 3.2 Vision的支持更新,并分享Llama 3.2 Vision的实测效果。同时,我还将介绍一个视觉RAG体系,展示如何将Llama 3.2 Vision与该体系团结,完成基于视觉RAG检索的使命。先介绍此次更新:
Ollama 现在正式支持 Llama 3.2 视觉模型(Llama 3.2 Vision)。
你看就像这样拖进去就可以辨认图片了。
https://img-blog.csdnimg.cn/img_convert/318a524d50735b6f7502c1dc99695210.gif
▲ 泉源 | Prompt Engineering
你可以看到该模型有11B参数版和90B参数版。选择90B参数版时,文件大小约为55GB。固然还有一些量化的版本。
https://img-blog.csdnimg.cn/img_convert/ad7d9475e26244c24abf83bdaa1397da.jpeg
Llama 3.2 Vision 11B 至少必要 8GB VRAM,而 90B 型号至少必要 64 GB VRAM。
为了安装它,你必要更新一下ollama,这里以docker安装的ollama为例,没更新前拉取这个视觉模型不成功,我们必要删掉容器,再pull更新它。
https://img-blog.csdnimg.cn/img_convert/30fcde40cec2faa3390168fed8bc3d97.png
更新完之后我们可以实行拉取利用
https://img-blog.csdnimg.cn/img_convert/e24861875b052c7b01b9a034b688f828.png
如果你的是Linux版本ollama由于网络问题下载不成功的话,你可以看看这篇文章的末端。
[
Ollama 升级!支持一键拉取Huggingface上所有的模型,太方便了!(vLLM、Fastgpt、Dify、多卡推理)
2024-10-17
https://img-blog.csdnimg.cn/img_convert/479364516b4a191bc58fab2c0583f677.jpeg
](http://mp.weixin.qq.com/s?__biz=MzkyMzY1NTM0Mw==&mid=2247495145&idx=1&sn=bdf414c7b5d443900aae324d9e47db89&chksm=c1e36029f694e93fe2623305e4410361bb893a206571b7967349b79c3e1575d9cb603dbd93d6&scene=21#wechat_redirect)
你可以利用ollama python库这样运行它的测试
https://img-blog.csdnimg.cn/img_convert/7e4e0b350445599a6b6c428b9169d453.png
通过本地图像路径向模型提问“这张图片是什么”。
https://img-blog.csdnimg.cn/img_convert/7b1007e9b8eb4f756f02fcd97dafd618.png
▲ 泉源 | Fahd Mirza
模型返回了效果,描述图片中有“日落、袋鼠和一群鸟,太阳位于画面中心,但被云遮挡。” 这正是图片内容。
https://img-blog.csdnimg.cn/img_convert/5f63ab2b9560251f9b5ae394838f15d9.png
“ 这是什么都会?”,模型会给出答案:“我猜这是日本的都会,可能是东京或大阪。”
我们看看其他一些场景的环境:
手写内容辨认
https://img-blog.csdnimg.cn/img_convert/0822fbe9cbaf1cffb92f4575929dc63b.png
光学字符辨认 (OCR)
https://img-blog.csdnimg.cn/img_convert/bdce5bd7950e0670e565de463876f583.png
图表和表格
https://img-blog.csdnimg.cn/img_convert/aac3fe4d8307e72c50dfcf9c50902003.png
图片问答
https://img-blog.csdnimg.cn/img_convert/f6030432f6990f1b5d0789f001ad0c89.png
照旧不错的。
下面我们进入正题 …
一个视觉RAG体系 + Llama 3.2 Vision
LocalGPT-Vision 是一个基于视觉的检索增强天生 (RAG) 体系,它可以让你与文档进行对话,利用Vision语言模型实现端到端的RAG体系。
https://img-blog.csdnimg.cn/img_convert/2bb5ec16d10f50c4ba7688fa649862ba.png
该项目利用Colqwen 或 ColPali模型进行基于视觉的页面信息检索,检索到的页面将传递到视觉语言模型 (VLM) 以天生相应。
https://img-blog.csdnimg.cn/img_convert/e6fc73c73977827b9d0ea8905d860ac5.png
安装这个项目:
首先,你必要克隆代码仓库或拉取最新的更改;然后你必要创建一个新的虚拟环境来利用conda;末了利用`pip install -r requirements.txt`安装所有必要的包。
https://img-blog.csdnimg.cn/img_convert/8f3f454f43a6933e955613b068ee39d2.png
为了启动主应用程序,我们将利用`python app.py`,这会启动我们的Flask服务器,并在该URL上运行。只需在欣赏器中访问即可。
这是本地GPT Vision的主界面。如果你进入模型列表,将看到检索模型。我将选择Colqwen ,它是最适合的模型之一。
https://img-blog.csdnimg.cn/img_convert/532a40beac2f301befd990587505494c.png
对于天生模型,你有多个选项,我将选择Ollama Llama Vision,
https://img-blog.csdnimg.cn/img_convert/1bc6e7069be8529d6ab1b4328901bc5d.png
然后生存更改。
对于被RAG的对象,我们利用一篇名叫Light RAG论文,这是一种简单快速的检索增强天生方法,团结了知识库和基于麋集向量的方式,特别适用于具有某种关系的实体。
_Light_RAG开源了!轻巧、强大,GraphRAG的进化版
2024-10-14
https://img-blog.csdnimg.cn/img_convert/10fa73a6b741cbfcdef2259dd70a331b.jpeg
https://img-blog.csdnimg.cn/img_convert/a23c6f24ac0ebbcad3f73e410d62f111.png
开始:
点击上传文档按钮,选择相应的PDF文件,然后点击“开始索引”。
https://img-blog.csdnimg.cn/img_convert/7baa58d29c8ca63c02f1a2d8b352cd5d.gif
▲ 泉源 | Prompt Engineering
此时,后台将利用Colqwen模型为PDF中的每一页创建多维向量表现,转换成图像并盘算嵌入,所有这些利用都依靠于强大的poppler库。
https://img-blog.csdnimg.cn/img_convert/ed4ab9d1f292cd49ba326622045847e4.png
如果遇到问题,请确保已安装poppler库,由于有些人在利用这个库时遇到过问题。索引完成后,点击“确定”,然后开始与刚才创建的知识库进行交互。
首先,我们用一个简单的提示开始:“这篇论文的标题是什么?”
你可以看到,论文的标题是《Light RAG: Simple and Fast Retrieval Augmented Generation》。
https://img-blog.csdnimg.cn/img_convert/2a624407f55712ad9680e1af2737901a.png
它与标题完全一致。
接下来我们可以看看它是否能够解释该图像的详细信息。
我问:“你能详细解释图1吗?”
https://img-blog.csdnimg.cn/img_convert/3ea2e081d8c46a94e9b13db4c89fc05a.png
图1 作为论文中的一个插图,讨论了索引过程和检索过程,并展示了提议的Light RAG框架的整体架构。该页面还包含了其他信息,特别是数学公式,它们本质上也解释了相同的概念。
原文是这样的
https://img-blog.csdnimg.cn/img_convert/fca4d33e2888ef360ebb989c2420c1e4.png
这里是这个视觉RAG体系回答的翻译版本:
https://img-blog.csdnimg.cn/img_convert/b5bdfaf7b4acb02234e274fc916228dd.png
天生的相应是:“该图像展示了Light RAG框架的全面概述,该框架旨在增强信息检索体系的性能和服从。”然后它讨论了差别的组件,包罗数据索引器和数据检索器。
这些信息似乎来自图像本身或图像所在页面上的文本。描述可以做得更好一些,可能90B版本的模型会做得更好。
我在这里补充它回答后续的截图:
https://img-blog.csdnimg.cn/img_convert/06545bc232ca65efe2c4fe79f949a0aa.png
此外,这些视觉开源大模型每每也可以用于一些视频帧的分析的场景。
如何学习大模型 AI ?
由于新岗位的生产服从,要优于被取代岗位的生产服从,以是实际上整个社会的生产服从是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比力晚掌握AI的人有竞争优势”。
这句话,放在盘算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和发展。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,以是在工作繁忙的环境下照旧坚持各种整理和分享。但苦于知识流传途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包罗AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
https://img-blog.csdnimg.cn/direct/80dfd54ec491457faa956c46afad1163.png#pic_center
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的明白凌驾 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 谈天,而你能调教 AI,并能用代码将大模型和业务衔接。
[*]大模型 AI 夺目什么?
[*]大模型是怎样获得「智能」的?
[*]用好 AI 的核心心法
[*]大模型应用业务架构
[*]大模型应用技术架构
[*]代码示例:向 GPT-3.5 灌入新知识
[*]提示工程的意义和核心思想
[*]Prompt 典范构成
[*]指令调优方法论
[*]思维链和思维树
[*]Prompt 攻击和防范
[*]…
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,捉住最新的技术进展,适合 Python 和 JavaScript 程序员。
[*]为什么要做 RAG
[*]搭建一个简单的 ChatPDF
[*]检索的基础概念
[*]什么是向量表现(Embeddings)
[*]向量数据库与向量检索
[*]基于向量检索的 RAG
[*]搭建 RAG 体系的扩展知识
[*]混淆检索与 RAG-Fusion 简介
[*]向量模型本地部署
[*]…
第三阶段(30天):模型训练
恭喜你,如果学到这里,你根本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
[*]为什么要做 RAG
[*]什么是模型
[*]什么是模型训练
[*]求解器 & 丧失函数简介
[*]小实验2:手写一个简单的神经网络并训练它
[*]什么是训练/预训练/微调/轻量化微调
[*]Transformer布局简介
[*]轻量化微调
[*]实验数据集的构建
[*]…
第四阶段(20天):贸易闭环
对环球大模型从性能、吞吐量、本钱等方面有肯定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产物司理。
[*]硬件选型
[*]带你了解环球大模型
[*]利用国产大模型服务
[*]搭建 OpenAI 署理
[*]热身:基于阿里云 PAI 部署 Stable Diffusion
[*]在本地盘算机运行大模型
[*]大模型的私有化部署
[*]基于 vLLM 部署大模型
[*]案例:如何优雅地在阿里云私有部署开源大模型
[*]部署一套开源 LLM 项目
[*]内容安全
[*]互联网信息服务算法存案
[*]…
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越精良的自己。
如果你能在15天内完成所有的使命,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果必要可以微信扫描下方CSDN官方认证二维码免费领取【包管100%免费】
https://i-blog.csdnimg.cn/direct/d6badc61a8244c6693e687a0b1f48d3e.png
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]