GGUF 的主要优势在于,它能够将原始的大模子预训练效果颠末特定优化后转换成这种格式,从而可以更快地被载入利用,并斲丧更低的资源。 最为关键的一点是,它答应用户利用 CPU 来运行 LLM。 真正做到了,GPU 不够 CPU 来凑,但也不是什么 CPU 都有资格加入的。
2. 第一步:安装当地大模子管理工具
当地大模子的运行、管理工具种类繁多,比较有名且被各种 LLMOps 平台支持的有 Ollama、 LocalAI等。颠末体验对比,我临时选择了 Ollama。
Ollama 在 Mac 上的安装有三种方式:
在 Ollama 官网下载 Mac 安装包,手工安装
用 Docker 运行 Ollama(在 M1 以上芯片的 Mac 上不要用,体验不到 GPU 的快乐)
用 brew 命令行自动安装(简单方便,剧烈推荐)
打开终端工具,执行下面的命令,安装 Ollama。
安装命令
brew install ollama --cask
复制代码
正确的安装效果如下
[code]MacBook-Pro at ~ ❯ brew install ollama --cask
==> Downloading https://github.com/ollama/ollama/releases/download/v0.1.32/Ollama-darwin.zip==> Downloading from https://objects.githubusercontent.com/github-production-release-asset-2e65be/658928958/3e980350-d263-484d-83b2-765009b8c2c######################################################################################################################################## 100.0%==> Installing Cask ollama==> Moving App 'Ollama.app' to '/Applications/Ollama.app'==> Linking Binary 'ollama' to '/opt/homebrew/bin/ollama'