Windows本地部署通义千问QwQ-32B实践，阿里千问QwQ-32B推理模型开源，比肩6 ...

锦通 · 2025-3-17 06:57:45

各人好，我是AI 的魔盒，让我们一起探索AI的魔力，我会持续将最新大模型的资讯，大模型的实践与各人分享，请持续关注！
一、起首需要安装Ollama，安装ollama的方法请参考我前边的文档
【在 Windows 体系下，用 DeepSeek R3 + Dify搭建私有知识库的超详细教程】_windows dify deepseek-CSDN博客

二、利用ollama安装QwQ-32B
安装命令如下：

ollama run qwq

复制代码

下载速度咋也太快了吧

功德多磨啊，正在期盼的时候，突然报如下错误：

C:\Users\Administrator>ollama run qwq
pulling manifest
pulling manifest
pulling c62ccde5630c... 0% ▕ ▏ 999 KB/ 19 GB
Error: max retries exceeded: write C:\Users\Administrator\.ollama\models\blobs\sha256-c62ccde5630c20c8a9cf601861d31977d07450cad6dfdf1c661aab307107bddb-partial: There is not enough space on the disk.

复制代码

办理方法
设置ollama_models目次位置

OLLAMA_MODELS=E:\ai\models
设置完成后利用如下命令查看是否已经生效

ollama serve

复制代码

C:\Users\Administrator>ollama serve
2025/03/07 14:52:30 routes.go:1187: INFO server config env="map[CUDA_VISIBLE_DEVICES: GPU_DEVICE_ORDINAL: HIP_VISIBLE_DEVICES: HSA_OVERRIDE_GFX_VERSION: HTTPS_PROXY: HTTP_PROXY: NO_PROXY: OLLAMA_DEBUG:false OLLAMA_FLASH_ATTENTION:false OLLAMA_GPU_OVERHEAD:0 OLLAMA_HOST:http://127.0.0.1:11434 OLLAMA_INTEL_GPU:false OLLAMA_KEEP_ALIVE:5m0s OLLAMA_KV_CACHE_TYPE: OLLAMA_LLM_LIBRARY: OLLAMA_LOAD_TIMEOUT:5m0s OLLAMA_MAX_LOADED_MODELS:0 OLLAMA_MAX_QUEUE:512 OLLAMA_MODELS:D:\\ai\\models OLLAMA_MULTIUSER_CACHE:false OLLAMA_NOHISTORY:false OLLAMA_NOPRUNE:false OLLAMA_NUM_PARALLEL:0 OLLAMA_ORIGINS:[http://localhost https://localhost http://localhost:* https://localhost:* http://127.0.0.1 https://127.0.0.1 http://127.0.0.1:* https://127.0.0.1:* http://0.0.0.0 https://0.0.0.0 http://0.0.0.0:* https://0.0.0.0:* app://* file://* tauri://* vscode-webview://*] OLLAMA_SCHED_SPREAD:false ROCR_VISIBLE_DEVICES:]"
time=2025-03-07T14:52:31.631+08:00 level=INFO source=images.go:432 msg="total blobs: 12"
time=2025-03-07T14:52:31.632+08:00 level=INFO source=images.go:439 msg="total unused blobs removed: 0"
time=2025-03-07T14:52:31.632+08:00 level=INFO source=routes.go:1238 msg="Listening on 127.0.0.1:11434 (version 0.5.7)"
time=2025-03-07T14:52:31.633+08:00 level=INFO source=routes.go:1267 msg="Dynamic LLM libraries" runners="[cpu_avx2 cuda_v11_avx cuda_v12_avx rocm_avx cpu cpu_avx]"
time=2025-03-07T14:52:31.633+08:00 level=INFO source=gpu.go:226 msg="looking for compatible GPUs"
time=2025-03-07T14:52:31.633+08:00 level=INFO source=gpu_windows.go:167 msg=packages count=1
time=2025-03-07T14:52:31.633+08:00 level=INFO source=gpu_windows.go:183 msg="efficiency cores detected" maxEfficiencyClass=1
time=2025-03-07T14:52:31.633+08:00 level=INFO source=gpu_windows.go:214 msg="" package=0 cores=14 efficiency=8 threads=20
time=2025-03-07T14:52:31.770+08:00 level=INFO source=types.go:131 msg="inference compute" id=GPU-f7eb66b9-7d88-dcbb-dc72-62d2ba3458c1 library=cuda variant=v12 compute=8.6 driver=12.8 name="NVIDIA GeForce RTX 3060" total="12.0 GiB" available="11.0 GiB"

复制代码

接着跑，这次成功了，哈哈哈

C:\Users\Administrator>ollama run qwq
pulling manifest
pulling c62ccde5630c... 100% ▕█████████████████████████████████████████████████████████▏ 19 GB
pulling 41190096a061... 100% ▕█████████████████████████████████████████████████████████▏ 1.2 KB
pulling d18a5cc71b84... 100% ▕█████████████████████████████████████████████████████████▏ 11 KB
pulling 4afe5edfdb51... 100% ▕█████████████████████████████████████████████████████████▏ 77 B
pulling 6a8faa2fb8b0... 100% ▕█████████████████████████████████████████████████████████▏ 488 B
verifying sha256 digest
writing manifest
success

复制代码

终于瞥见了，整体一下来效果还不错，中文名叫通义千问，英文名叫Qwen

[code]>>> 你好
<think>

</think>

你好！今天过得怎么样？

>>> 你是谁
<think>
嗯，用户问“你是谁”，我需要先回顾之前的对话。用户一开始打招呼“你好”，然后我回应了友好的问候，并询问他们的情况。现
在用户接着问“你是谁”，显然是想了解我的身份。

首先，我要确认用户的意图。可能他们刚接触这个平台，或者之前没和AI交流过，所以想知道对方是谁。这时候需要明确回答自己的
身份，同时保持友好和简洁。

根据之前的设定，我应该介绍自己是通义千问，阿里云研发的超大规模语言模型。要提到我的功能，比如回答问题、创作文字等，并
且强调能帮助用户解决问题或提供信息。这样既回答了问题，又展示了我能提供的服务，鼓励用户继续互动。

另外，要注意用户的使用场景可能是在测试AI的能力，或者真的需要帮助。所以回应里应该包含足够的信息，但不过于冗长。同时保
持口语化，避免技术术语太多，让用户容易理解。

还要考虑是否遗漏了什么。比如用户可能想知道我的能力范围，或者是否有特殊功能。可以简要提到多语言支持和不同领域的知识，
这样用户知道我可以处理各种主题的问题。

最后，确保语气友好，结尾用问句邀请用户提出具体需求，促进进一步的对话。检查有没有拼写或语法错误，保持回答自然流畅。
</think>

你好！我是通义千问，阿里巴巴集团旗下的超大规模语言模型。我的中文名叫通义千问，英文名叫Qwen，可以回答问题、创作文字，
比如写故事、写公文、写邮件、写剧本、逻辑推理、编程等等，还能表达观点，玩游戏等。有什么我可以帮你的吗？

		自动登录	找回密码
密码			立即注册

Windows本地部署通义千问QwQ-32B实践，阿里千问QwQ-32B推理模型开源，比肩6 ...

0 个回复

快速回复

楼主热帖

标签云