ollama 摆设教程(window、linux)

打印 上一主题 下一主题

主题 786|帖子 786|积分 2358

目录
一、官网
二、安装方式一:window10版本下载
三、安装方式二:linux版本docker
四、 模型库
五、运行模型
六、API服务
七、python调用
ollama库调用
langchain调用 
requests调用
aiohttp调用
八、模型添加方式
1.线上pull
2.导入 GGUF 模型文件
3.导入 safetensors 模型文件
九、摆设Open WebUI


参考链接:Ollama完备教程:当地LLM管理、WebUI对话、Python/Java客户端API应用 - 老牛啊 - 博客园 (cnblogs.com)
https://www.cnblogs.com/obullxl/p/18295202/NTopic2024071001
一、官网

在 macOS 上下载 Ollama - Ollama 中文
二、安装方式一:window10版本下载



安装完成没有提示。 接下来配置情况变量!
   Ollama的安装过程,与安装其他普通软件并没有什么两样,安装完成之后,有几个常用的系统情况变量参数发起进行设置:
  

  • OLLAMA_MODELS:模型文件存放目录,默认目录为当前用户目录(Windows 目录:C:\Users%username%.ollama\models,MacOS 目录:~/.ollama/models,Linux 目录:/usr/share/ollama/.ollama/models),假如是 Windows 系统发起修改(如:D:\OllamaModels),制止 C 盘空间吃紧
  • OLLAMA_HOST:Ollama 服务监听的网络地点,默认为127.0.0.1,假如允许其他电脑访问 Ollama(如:局域网中的其他电脑),发起设置0.0.0.0,从而允许其他网络访问
  • OLLAMA_PORT:Ollama 服务监听的默认端口,默认为11434,假如端口有辩论,可以修改设置成其他端口(如:8080等)
  • OLLAMA_ORIGINS:HTTP 客户端哀求来源,半角逗号分隔列表,若当地使用无严格要求,可以设置成星号,代表不受限定
  • OLLAMA_KEEP_ALIVE:大模型加载到内存中后的存活时间,默认为5m即 5 分钟(如:纯数字如 300 代表 300 秒,0 代表处理哀求响应后立刻卸载模型,任何负数则表现不停存活);我们可设置成24h,即模型在内存中保持 24 小时,提高访问速度
  • OLLAMA_NUM_PARALLEL:哀求处理并发数量,默认为1,即单并发串行处理哀求,可根据实际情况进行调解
  • OLLAMA_MAX_QUEUE:哀求队列长度,默认值为512,可以根据情况设置,超过队列长度哀求被抛弃
  • OLLAMA_DEBUG:输出 Debug 日记标识,应用研发阶段可以设置成1,即输出详细日记信息,便于排盘问题
  • OLLAMA_MAX_LOADED_MODELS:最多同时加载到内存中模型的数量,默认为1,即只能有 1 个模型在内存中
  
  


看看是不是已经启动了ollama。右下角图标如下 

假如没有,则去打开一下

黑窗口查看一下 版本

浏览器查看一下API服务:127.0.0.1:11434

 假如出现连接不上,则查抄一下情况变量是不是配错了,是不是没有E盘(假如你照抄)。 
运行一个0.5b的qwen模型
  1. ollama run qwen2:0.5b
复制代码

看看API访问情况: 
提问:

对话: 

   ① system 代表系统设定(也就是告诉chatGPT他的角色)
  ② user 表现用户
  ③ assistant 表现GPT的回复
  三、安装方式二:linux版本docker

Olama现已作为官方Docker镜像提供 · Olama博客 - Ollama 中文
  1. docker run -d -v /home/ollama:/root/.ollama -p 11435:11434 --name ollama ollama/ollama
复制代码
  主机的/home/ollama文件夹映射到容器的/root/.ollama文件夹
  主机的11435端口映射到容器的11434端口 
  
 


进入容器内部:
  1. docker exec -it ollama /bin/bash
复制代码
 查看ollama实行
  1. ollama
复制代码

   ollama serve    # 启动ollama
ollama create    # 从模型文件创建模型
ollama show        # 显示模型信息
ollama run        # 运行模型,会先自动下载模型
ollama pull        # 从注册仓库中拉取模型
ollama push        # 将模型推送到注册仓库
ollama list        # 列出已下载模型
ollama ps        # 列出正在运行的模型
ollama cp        # 复制模型
ollama rm        # 删除模型
  1. # 本地模型列表
  2. >ollama list
  3. NAME            ID              SIZE    MODIFIED
  4. gemma2:9b       c19987e1e6e2    5.4 GB  7 days ago
  5. qwen2:7b        e0d4e1163c58    4.4 GB  10 days ago
复制代码
  1. # 删除单个模型
  2. >ollama rm gemma2:9b
  3. deleted 'gemma2:9b'
  4. >ollama list
  5. NAME            ID              SIZE    MODIFIED
  6. qwen2:7b        e0d4e1163c58    4.4 GB  10 days ago
复制代码
  1. # 启动本地模型
  2. >ollama run qwen2:0.5b
  3. >>>
复制代码
  1. # 运行中模型列表
  2. >ollama ps
  3. NAME            ID              SIZE    PROCESSOR       UNTIL
  4. qwen2:0.5b      6f48b936a09f    693 MB  100% CPU        4 minutes from now
复制代码
  1. # 复制本地大模型:ollama cp 本地存在的模型名 新复制模型名
  2. >ollama cp qwen2:0.5b Qwen2-0.5B
  3. copied 'qwen2:0.5b' to 'Qwen2-0.5B'
  4. >ollama list
  5. NAME                    ID              SIZE    MODIFIED
  6. Qwen2-0.5B:latest       6f48b936a09f    352 MB  4 seconds ago
  7. qwen2:0.5b              6f48b936a09f    352 MB  29 minutes ago
  8. qwen2:7b                e0d4e1163c58    4.4 GB  10 days ago
复制代码

四、 模型库

library (ollama.com)

五、运行模型

模型要求

 这里我们运行一个要求最小的0.5B的qwen模型。

留意这是在容器内部运行的: 
  1. ollama run qwen2:0.5b
复制代码
  1. root@535ec4243693:/# ollama run qwen2:0.5b
  2. pulling manifest
  3. pulling 8de95da68dc4... 100% ▕████████████████████████████████████▏ 352 MB                        
  4. pulling 62fbfd9ed093... 100% ▕████████████████████████████████████▏  182 B                        
  5. pulling c156170b718e... 100% ▕████████████████████████████████████▏  11 KB                        
  6. pulling f02dd72bb242... 100% ▕████████████████████████████████████▏   59 B                        
  7. pulling 2184ab82477b... 100% ▕████████████████████████████████████▏  488 B                        
  8. verifying sha256 digest
  9. writing manifest
  10. removing any unused layers
  11. success
  12. >>> 你是谁
  13. 我是来自阿里云的超大规模语言模型——通义千问。我能够理解、生产、传播各种语言和文字,可以回答您在任
  14. 何语言或任何问题的问题。
  15. >>> Send a message (/? for help)
复制代码
六、API服务

文档地点:
     

  • model:(必需)模型名称
  • prompt:生成响应的提示
  • suffix:模型响应后的文本
  • images:(可选)base64 编码图像列表(对于多模态模型,比方llava)
  高级参数(可选):
  

  • format:返回响应的格式。目前唯一接受的值是json
  • options:Modelfile 文档中列出的其他模型参数,比方temperature
  • system:系统消息更改为(覆盖Modelfile)
  • template:要使用的提示模板(覆盖Modelfile)
  • context:从上一个哀求返回的 context 参数 to ,这可用于保持较短的对话记忆/generate
  • stream:假如响应将作为单个响应对象返回,而不是对象流false
  • raw:假如没有格式将应用于提示。假如您在对 API 的哀求中指定了完备的模板化提示,则可以选择使用该参数trueraw
  • keep_alive:控制模型在哀求后加载到内存中的时间(默认值:5m)
  1. curl --location --request POST 'http://127.0.0.1:11435/api/generate' \
  2. --header 'User-Agent: Apifox/1.0.0 (https://apifox.com)' \
  3. --header 'Content-Type: application/json' \
  4. --data-raw '{
  5.     "model": "qwen2:0.5b",
  6.     "prompt": "你知道麦克斯韦吗"
  7. }'
复制代码
  1. curl --location --request POST 'http://127.0.0.1:11435/api/chat' \
  2. --header 'User-Agent: Apifox/1.0.0 (https://apifox.com)' \
  3. --header 'Content-Type: application/json' \
  4. --data-raw '{
  5.     "model": "qwen2:0.5b",
  6.     "messages": [
  7.         {
  8.             "role": "system",
  9.             "content": "你是一个历史专家"
  10.         },
  11.         {
  12.             "role": "user",
  13.             "content": "东北三省是哪三个?"
  14.         },
  15.         {
  16.             "role": "assistant",
  17.             "content": "东北三省是指中国东北地区(不含内蒙古)。它包括吉林省的延边朝鲜族自治州、黑龙江省的黑河市和哈尔滨市,以及辽宁省的抚顺市、本溪市、丹东市。其中,延边州包括临山子、龙沙等13个县市。"
  18.         },
  19.         {
  20.             "role": "user",
  21.             "content": "张作霖的势力是在这里兴起的吗"
  22.         }
  23.     ],
  24.     "stream": false
  25. }'
复制代码
  ① system 代表系统设定(也就是告诉chatGPT他的角色)
  ② user 表现用户
  ③ assistant 表现GPT的回复
   API访问会激活模型,颠末keep_alive的时间内(默认5m)假如没有访问,则会自动下线模型。当再次有API访问,则会再次自动激活模型。
假如keep_alive的值为零0,则是自动将模型下线。比如:
  1. curl http://localhost:11434/api/chat -d '{
  2.   "model": "llama3.1",
  3.   "messages": [],
  4.   "keep_alive": 0
  5. }'
复制代码
七、python调用

   

  • temperature:用于调解生成结果的创造性程度,设置越高,生成的文本越新颖、越独特,设置越低,结果更集中。
  • stream:默认false,是否流式传输回部分进度。
  • format: 转录输出的格式,可选项包罗json、str等。
  
  ollama库调用

  1. pip install ollama
复制代码
  1. import ollama
  2. host = "127.0.0.1"
  3. port = "11434"
  4. client = ollama.Client(host=f"http://{host}:{port}")
  5. res = client.chat(model="qwen2:0.5b",
  6.                   messages=[{"role": "user", "content": "你是谁"}],
  7.                   options={"temperature": 0})
  8. print(res)
复制代码
langchain调用 

  1. pip install langchain
  2. pip install langchain_community
复制代码
  1. from langchain_community.llms import Ollama
  2. host="127.0.0.1"
  3. port="11434" #默认的端口号为11434
  4. llm=Ollama(base_url=f"http://{host}:{port}", model="qwen2:0.5b",temperature=0)
  5. res=llm.invoke("你是谁")
  6. print(res)
复制代码
requests调用

  1. pip install requests
复制代码
  1. host="127.0.0.1"
  2. port="11434"
  3. url = f"http://{host}:{port}/api/chat"
  4. model = "qwen2:0.5b"
  5. headers = {"Content-Type": "application/json"}
  6. data = {
  7.         "model": model, #模型选择
  8.         "options": {
  9.             "temperature": 0.  #为0表示不让模型自由发挥,输出结果相对较固定,>0的话,输出的结果会比较放飞自我
  10.          },
  11.         "stream": False, #流式输出
  12.         "messages": [{
  13.             "role": "system",
  14.             "content":"你是谁?"
  15.         }] #对话列表
  16.     }
  17. response=requests.post(url,json=data,headers=headers,timeout=60)
  18. res=response.json()
  19. print(res)
复制代码

aiohttp调用

  1. pip install aiohttp
复制代码
Welcome to AIOHTTP — aiohttp 3.10.5 documentation
  1. import asyncio
  2. import json
  3. import aiohttp
  4. host = "127.0.0.1"
  5. port = "11434"
  6. url = f"http://{host}:{port}/api/chat"
  7. headers = {
  8.     'Content-Type': 'application/json'
  9. }
  10. payload = json.dumps({
  11.     "model": "qwen2:0.5b",
  12.     "options": {
  13.         "temperature": 0.  # 为0表示不让模型自由发挥,输出结果相对较固定,>0的话,输出的结果会比较放飞自我
  14.     },
  15.     "messages": [
  16.         {"role": "system", "content": "你是一个历史砖家,专门胡说八道,混淆历史"},
  17.         {"role": "user", "content": "吕雉和吕不韦是啥关系?汉朝是大秦帝国的延续吗?"}
  18.     ],
  19.     "stream": False
  20. })
  21. async def main():
  22.     start_time = asyncio.get_event_loop().time()
  23.     async with aiohttp.ClientSession() as session:
  24.         try:
  25.             async with session.post(url, headers=headers, data=payload, timeout=60) as response:
  26.                 if response.status == 200:
  27.                     data = await response.text()
  28.                     print(data)
  29.                     end_time = asyncio.get_event_loop().time()
  30.                     elapsed_time = end_time - start_time
  31.         except asyncio.TimeoutError:
  32.             print("请求超时了")
  33.         finally:
  34.             print(f"耗时:0.0570秒")
  35. if __name__ == '__main__':
  36.     asyncio.run(main())
复制代码
八、模型添加方式

1.线上pull(推荐

即上述教程采用的方式。

2.导入 GGUF 模型文件(推荐

windows示例:

①.下载模型

从 HF 或者 ModeScope 下载了 GGUF 文件:qwen2-0_5b-instruct-q4_0.gguf

②.上传文件

新建一个文件夹来存放GGUF文件,比方我存放在E:\huggingface_models\qwen2-05b-q4中,在GGUF文件的同级,创建一个文件名为Modelfile的文件,该文件的内容如下:
  1. FROM ./qwen2-0_5b-instruct-q4_0.gguf
复制代码

③.导入模型

打开Modelfile所在文件夹下打开终端,实行命令导入模型文件:
  1. ollama create 模型名称 -f ./Modelfile
复制代码
  1. ollama create qwen2-05b-q4 -f ./Modelfile
复制代码

④.查看模型

导入成功之后,我们就可以通过list定名,看到名为qwen2-05b-q4的当地模型了,后续可以和其他模型一样进行管理了。

⑤.运行模型

  1. ollama run qwen2-05b-q4:latest
复制代码

Linux示例

①.在主机的/home/ollama文件夹下新建huggingface_models文件夹,

②.再在huggingface_models文件夹下新建qwen2-05b-q4文件夹。

③.将模型文件和Modelfile上传到上一步创建的qwen2-05b-q4文件夹中。

  1. /home/ollama/huggingface_models/qwen2-05b-q4
复制代码

④.进入ollama容器

  1. docker exec -it ollama bash
复制代码
⑤.cd 到映射的文件夹中

  1. cd /root/.ollama/huggingface_models/qwen2-05b-q4
复制代码

⑥. 实行导入模型命令

  1. ollama create qwen2-05b-q4 -f ./Modelfile
复制代码
⑦.查看导入的模型


  1. ollama list
复制代码
 

⑧.运行模型

  1. ollama run qwen2-05b-q4:latest
复制代码



3.导入 safetensors 模型文件(多了一个将safetensors转换成gguf文件的过程)

示例
①.下载模型文件

从 HF 或者 ModeScope 下载了 safetensors 文件
https://huggingface.co/Qwen/Qwen2.5-0.5B/tree/main

将模型所有文件上传到linux
在linux上新建一个文件夹huggingface_safetensors_models,再在内里新建一个文件夹qwen2-05b-q4,然后将模型所有文件上传进去
 

②.克隆ollama/ollama项目

git克隆,并设置python情况,最好是虚拟情况,防止依赖版本与其他项目辩论。可能会有类似下面的错误。博主使用的是conda,以此为例:

ollama/ollama: Get up and running with Llama 3.1, Mistral, Gemma 2, and other large language models. (github.com)
  1. git clone git@github.com:ollama/ollama.git ollama
复制代码

进入项目中
  1. cd ollama
复制代码
紧接着,同步 llm/llama.cpp 子模块
  1. git submodule init
  2. git submodule update llm/llama.cpp
复制代码

③.设置情况

创建一个虚拟情况 
  1. conda create -n ollama python=3.11
复制代码
 
激活虚拟情况 
  1. conda activate ollama
复制代码


④.安装依赖

进入项目目录
  1. cd /home/ollama/ollama
复制代码
 
实行安装命令
  1. pip install -r llm/llama.cpp/requirements.txt
复制代码
 
假如报错,就多装几次,可能网络时间太长断开了。 

 ④.构建量化工具
假如没有make命令则安装一个make
  1. sudo apt update
复制代码
  1. sudo apt install make
复制代码
假如没有gcc 和 g++ 编译器 则需要安装一下
  1. sudo apt update
复制代码
  1. sudo apt install build-essential
复制代码
下边这个可选(可以加速) 
  1. sudo apt install ccache
复制代码
 构建量化工具
  1. make -C llm/llama.cpp quantize
复制代码

 ⑤.模型转换

将 safetensors 转换为 converted.bin格式:

  1. python llm/llama.cpp/convert_hf_to_gguf.py 模型所在文件夹 --outtype f16 --outfile converted.bin
复制代码
  1. python llm/llama.cpp/convert_hf_to_gguf.py /home/ollama/huggingface_safetensors_models/qwen2-05b-q4 --outtype f16 --outfile converted.bin
复制代码
留意:某些模型架构需要使用特定的转换脚本。比方,Qwen 模型需要运行 
   1.outtype 指定了模型的格式,这里是 f16,也就是 float16 
  2.生成的converted.bin文件在ollama项目的根目录下
  

⑥.生成llama系列文件

进入llama.cpp文件夹
  1. cd llm/llama.cpp/
复制代码
实行make命令 
  1. make
复制代码
 
此时在llama.cpp文件夹下生成了一些列的llama文件,其中有一个llama-quantize是我们需要的。 
 
 ⑦.量化模型

回到ollama项目目录下

上面转换的事f16,也就是float16,此时的访问速度很慢,我们需要向量化来加速它的计算速度。
这里我们量化成q4,也就是int4:
  1. llm/llama.cpp/llama-quantize converted.bin quantized.bin q4_0
复制代码

此时在ollama项目的根目录下生成了我们需要的文件quantized.bin,它与gguf文件作用雷同

⑧.将quantized.bin文件放到我们的平常存放gguf文件的文件夹中:

我们将quantized.bin文件放到我们的平常存放gguf文件的文件夹中,比如我放到了huggingface_models,在huggingface_models中新建了一个文件夹qwen2-05b-q4-s来存放。
  1. cp /home/ollama/ollama/quantized.bin /home/ollama/huggingface_models/qwen2-05b-q4-s/quantized.bin
复制代码

在 quantized.bin同级新建Modelfile文件,内容如下
  1. FROM quantized.bin
复制代码
⑨.导入模型文件:ollama create 模型名称 -f ./Modelfile

进入ollama容器中
  1. docker exec -it ollama bash
复制代码
进入存放模型的文件夹中
  1. cd /root/.ollama/huggingface_models/qwen2-05b-q4-s
复制代码

 实行命令,创建Ollama模型
  1. ollama create qwen2-05b-q4-s -f ./Modelfile
复制代码
 ⑩.查看模型


  1. ollama list
复制代码
 
⑪.运行模型

  1. ollama run qwen2-05b-q4-s:latest
复制代码

九、摆设Open WebUI

 

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

tsx81428

金牌会员
这个人很懒什么都没写!

标签云

快速回复 返回顶部 返回列表