Windows本地部署通义千问QwQ-32B实践,阿里千问QwQ-32B推理模型开源,比肩6 ...

锦通  金牌会员 | 2025-3-17 06:57:45 | 显示全部楼层 | 阅读模式
打印 上一主题 下一主题

主题 991|帖子 991|积分 2973

各人好,我 是AI 的魔盒,让我们一起探索AI的魔力,我会持续将最新大模型的资讯,大模型的实践与各人分享,请持续关注! 
   一、起首需要安装Ollama,安装ollama的方法请参考我前边的文档
  【在 Windows 体系下,用 DeepSeek R3 + Dify搭建私有知识库的超详细教程】_windows dify deepseek-CSDN博客

   二、利用ollama安装QwQ-32B
  安装命令如下: 
  1. ollama run qwq
复制代码
下载速度咋也太快了吧

功德多磨啊,正在期盼的时候,突然报如下错误:
  1. C:\Users\Administrator>ollama run qwq
  2. pulling manifest
  3. pulling manifest
  4. pulling c62ccde5630c...   0% ▕                                                ▏ 999 KB/ 19 GB
  5. Error: max retries exceeded: write C:\Users\Administrator\.ollama\models\blobs\sha256-c62ccde5630c20c8a9cf601861d31977d07450cad6dfdf1c661aab307107bddb-partial: There is not enough space on the disk.
复制代码
办理方法
设置ollama_models目次位置

OLLAMA_MODELS=E:\ai\models
设置完成后利用如下命令查看是否已经生效
  1. ollama serve
复制代码


  1. C:\Users\Administrator>ollama serve
  2. 2025/03/07 14:52:30 routes.go:1187: INFO server config env="map[CUDA_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_DEBUG:false OLLAMA_FLASH_ATTENTION:false OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://127.0.0.1:11434 OLLAMA_INTEL_GPU:false OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:D:\\ai\\models OLLAMA_MULTIUSER_CACHE:false OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NUM_PARALLEL:0 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://*] OLLAMA_SCHED_SPREAD:false ROCR_VISIBLE_DEVICES:]"
  3. time=2025-03-07T14:52:31.631+08:00 level=INFO source=images.go:432 msg="total blobs: 12"
  4. time=2025-03-07T14:52:31.632+08:00 level=INFO source=images.go:439 msg="total unused blobs removed: 0"
  5. time=2025-03-07T14:52:31.632+08:00 level=INFO source=routes.go:1238 msg="Listening on 127.0.0.1:11434 (version 0.5.7)"
  6. time=2025-03-07T14:52:31.633+08:00 level=INFO source=routes.go:1267 msg="Dynamic LLM libraries" runners="[cpu_avx2 cuda_v11_avx cuda_v12_avx rocm_avx cpu cpu_avx]"
  7. time=2025-03-07T14:52:31.633+08:00 level=INFO source=gpu.go:226 msg="looking for compatible GPUs"
  8. time=2025-03-07T14:52:31.633+08:00 level=INFO source=gpu_windows.go:167 msg=packages count=1
  9. time=2025-03-07T14:52:31.633+08:00 level=INFO source=gpu_windows.go:183 msg="efficiency cores detected" maxEfficiencyClass=1
  10. time=2025-03-07T14:52:31.633+08:00 level=INFO source=gpu_windows.go:214 msg="" package=0 cores=14 efficiency=8 threads=20
  11. time=2025-03-07T14:52:31.770+08:00 level=INFO source=types.go:131 msg="inference compute" id=GPU-f7eb66b9-7d88-dcbb-dc72-62d2ba3458c1 library=cuda variant=v12 compute=8.6 driver=12.8 name="NVIDIA GeForce RTX 3060" total="12.0 GiB" available="11.0 GiB"
复制代码
接着跑,这次成功了,哈哈哈 
  1. C:\Users\Administrator>ollama run qwq
  2. pulling manifest
  3. pulling c62ccde5630c... 100% ▕█████████████████████████████████████████████████████████▏  19 GB
  4. pulling 41190096a061... 100% ▕█████████████████████████████████████████████████████████▏ 1.2 KB
  5. pulling d18a5cc71b84... 100% ▕█████████████████████████████████████████████████████████▏  11 KB
  6. pulling 4afe5edfdb51... 100% ▕█████████████████████████████████████████████████████████▏   77 B
  7. pulling 6a8faa2fb8b0... 100% ▕█████████████████████████████████████████████████████████▏  488 B
  8. verifying sha256 digest
  9. writing manifest
  10. success
复制代码
 终于瞥见了,整体一下来效果还不错,中文名叫通义千问,英文名叫Qwen

[code]>>> 你好
<think>

</think>

你好!今天过得怎么样?

>>> 你是谁
<think>
嗯,用户问“你是谁”,我需要先回顾之前的对话。用户一开始打招呼“你好”,然后我回应了友好的问候,并询问他们的情况。现
在用户接着问“你是谁”,显然是想了解我的身份。

首先,我要确认用户的意图。可能他们刚接触这个平台,或者之前没和AI交流过,所以想知道对方是谁。这时候需要明确回答自己的
身份,同时保持友好和简洁。

根据之前的设定,我应该介绍自己是通义千问,阿里云研发的超大规模语言模型。要提到我的功能,比如回答问题、创作文字等,并
且强调能帮助用户解决问题或提供信息。这样既回答了问题,又展示了我能提供的服务,鼓励用户继续互动。

另外,要注意用户的使用场景可能是在测试AI的能力,或者真的需要帮助。所以回应里应该包含足够的信息,但不过于冗长。同时保
持口语化,避免技术术语太多,让用户容易理解。

还要考虑是否遗漏了什么。比如用户可能想知道我的能力范围,或者是否有特殊功能。可以简要提到多语言支持和不同领域的知识,
这样用户知道我可以处理各种主题的问题。

最后,确保语气友好,结尾用问句邀请用户提出具体需求,促进进一步的对话。检查有没有拼写或语法错误,保持回答自然流畅。
</think>

你好!我是通义千问,阿里巴巴集团旗下的超大规模语言模型。我的中文名叫通义千问,英文名叫Qwen,可以回答问题、创作文字,
比如写故事、写公文、写邮件、写剧本、逻辑推理、编程等等,还能表达观点,玩游戏等。有什么我可以帮你的吗?
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

锦通

金牌会员
这个人很懒什么都没写!
快速回复 返回顶部 返回列表