超简朴,不用GPU,3步教你轻松在条记本上摆设聊天大模型 LLaMA ...

打印 上一主题 下一主题

主题 1002|帖子 1002|积分 3006

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?立即注册

x
大家好啊,我是董董灿。
今天带大家在自己的电脑(条记本)上摆设一个类似于 chatGPT 的 AI 聊天大模型。
摆设完之后,你就拥有了一个私家 AI 聊天机器人,无需联网,随时进行及时对话。

0. 简朴说下配景

大模型我们都不陌生了,但是以 chatGPT 为代表的大模型是闭源的,他们的源代码不开放,我们只能用他们的贸易化产品。
好在 Meta(也就是原来的 FaceBook) 开源了他们家的大模型 LLaMa。
之以是叫“大”模型,是由于它的参数量巨大。
以 LLaMa举例子,它开源了 LLaMa-7B, LLaMa-33B 等模型,后面的数字就代表着参数数量。


7B,就意味着参数有 70 亿,但是许多人微调后,发现它的结果却一点也不输拥有几千亿的 chatGPT-3.5 模型。
但是参数量大,就会对盘算机的算力有更高的要求,因此许多大模型,基本摆设都是要求在 GPU 上进行。


后来有人为了在传统 CPU 电脑上运行大模型,就开发了比较牛的框架,我们今天要用的,就是此中的一个明星产品:llama.cpp 。


它是全部利用 C++ 语言来重写的 llama 项目,不像 python 那样须要依赖大量的包,显的臃肿。
而且这个 C++ 项目可以利用 CPU 的特性,完成模型的极致性能优化。
举个例子:llama.cpp 项目中,针对 Intel CPU 会利用 avx2 向量指令集来做优化。
avx2 指令集有些小伙伴大概不清楚,但是之前看过我的小册(盘算机视觉从入门到调优)内容的同学肯定知道。
我在小册中就利用 avx2 指令集完成了对 resnet50 这个神经网络的性能优化,下图是小册中关于 avx2 部门的介绍。


总的来说,llama.cpp 项目不仅可以运行在 CPU 上,而且对于电脑的设置要求也不高。
一般有 4G 以上的内存就够了,这点要求基本上许多条记本都可以满足要求。
别的须要说明的是,我本身很少用 Windows 和 MacOS 环境做开发,因此本篇文章以 Linux 环境来介绍,并且默认大家熟悉 Linux 操纵。
如果没有Linux 环境,可以参考这篇文章快速搭建一个:不用假造机,10 分钟快速在 windows 下安装 linux 系统。(右键复制链接打开)
至于 Windows 和 MacOS 环境的摆设,可以去项目主页检察说明自行完成,llama.cpp 项目主页:https://github.com/ggerganov/llama.cpp/tree/master
好了,话不多说,我们直接开始,以下 3 步轻松搞定。

1、下载 llama.cpp 源码并编译

以下所有命令均在 Linux Ubuntu 环境下执行。
如果缺少 Linux 命令,利用 `sudo apt-get install` 来安装。
如果缺少 python 包,利用 `pip3 install `命令来安装。
首先,利用 git 下载 llama.cpp 源码。
  1. git clone git@github.com:ggerganov/llama.cpp.git
复制代码
下载完成后,进入 llama.cpp 目录。
  1. cd llama.cpp
复制代码
执行 make 命令,完成编译。
  1. make
复制代码
编译完成后,在 llama.cpp 目录下,会看到一个名称为 main 的可执行文件,这个就是等会要启动聊天的执行文件。
只要网络链接没题目,这一步很快就可以完成。

2. 下载量化后的模型文件

许多文章把这部门讲复杂了,我今天看了一些文章感觉也很吃力,跟别提新手了。
以是这部门我不计划介绍任何知识点,我们不用关心什么是量化操纵,直接下载一个已经量化好的模型利用就行。
这一步须要从 huggingface (这是一个专弟子存大模型的网站) 下载大模型(主要就是70 亿的参数)。
第一次下载估计许多人都会碰到题目,因此,我直接给出可行的步骤,肯定按步骤来做。
复制以下 3 条命令,在 Linux 环境下执行:
  1. pip3 install -U huggingface_hubpip install -U "huggingface_hub[cli]" export HF_ENDPOINT=https://hf-mirror.com
复制代码
简朴来说就是访问 huggingface 的国内镜像网站,而不去访问国外的 huggingface 网站。
执行完上面两步后,执行:
  1. huggingface-cli download TheBloke/Llama-2-7b-Chat-GGUF llama-2-7b-chat.Q4_K_M.gguf --local-dir .
复制代码
该命令会直接把模型文件下载到执行该命令的目录下,建议以上所有命令都在 llama.cpp 根目录下执行。
从上面的命令中我们可以看出,下载的是 llama-2-7b 模型,也就是有着 70 亿参数的那个模型。
须要说明一下,由于模型文件比较大,这一步下载时间会比较长,耐烦等待即可,中途如果有题目可以多尝试几次。

3、开始聊天吧

下载完模型后,就可以直接开始聊天了。
在 llama.cpp 目录下执行:
  1. ./main -m llama-2-7b-chat.Q4_K_M.gguf -c 4096 --temp 0.7 --repeat_penalty 1.1 -i
复制代码
就会进入聊天交互界面,在交互界面里,就开始你的畅聊体验吧,你可以问这个模型任意题目,由它来回答。


比如,我问了一个题目:“Three birds in the tree, i killed one by a gun, how many birds left?”
模型竟然先反问了我一下,确认是不是这个题目,在我回答“yes"后,它才开始回答。
通过以上这 3 步就完成了大模型摆设,是不是感觉挺简朴的?

须要说明的是,上面的示例中我下载的是 llama-7b 模型,它还不支持中文。
如果你想要进行中文对话,可以去 hugging-face 网站上找一些支持中文的模型来下载,其余的步骤不变。
好啦,今天关于如安在 CPU 上摆设大模型的介绍到这,如果体验成功的小伙伴记得回来点个赞哦。
延伸阅读:手把手教你免费升级 GPT-4。
文章原创,请勿随意转载,转载请接洽作者授权,谢谢配合。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

水军大提督

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表