使用llama factory对语言模型微调，重塑自我认知，并摆设于ollama上 ...

篮之新喜 · 2024-8-25 10:30:43

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？立即注册

x

本文记录了从环境摆设到微调模型、效果测试并摆设的全过程。
一环境
如果使用autodl租赁服务器则不必要如下步调，但是请留意llama_factory必要python、cuda等版本满足：

首先请确报你已经安装好了conda工具，在命令行中键入如下指令创建虚拟环境

conda create -n llama_factory python=3.10 -y

复制代码

创建后激活新环境

conda activate llama_factory

复制代码

安装cuda pytorch等核心工具

conda install pytorch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 pytorch-cuda=11.8 -c pytorch -c nvidia
pip install torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

复制代码

如安装其他版本，请留意对应关系

二工具与模型
安装git-lfs

sudo apt-get install git-lfs

复制代码

然后验证是否安装乐成，下载模型

git lfs install

复制代码

git clone https://www.modelscope.cn/qwen/Qwen2-0.5B-Instruct.git

复制代码

安装llama factory

git clone https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory

复制代码

安装依赖

pip install -e .[metrics,modelscope,qwen]
pip install -r requirements.txt

复制代码

启动webui

CUDA_VISIBLE_DEVICES=0 python src/webui.py # 指定一块 GPU 启动网页服务

复制代码

http://0.0.0.0:7860通过该地址进入，autodl下载autodl ssh隧道工具
面板如下

参数的说明：

三微调
进入llama-factory/data目录
新建一个json文件起名为my_data_zh.json
按下面的格式填入你的训练数据后生存即可，条数不限哦
数据集参数说明：
instruction：该数据的说明，比如“你是谁”这种问题就属于“自我介绍”，“你吃屎么”这种问题属于“业务咨询”
input：向他提的问题
output：他应该回答的内容

[
{
"instruction": "谁是你的开发者？你叫什么名字？",
"input": "",
"output": "您好，我叫xxx，是由xxx开发的人工智能助手。我旨在帮助用户解决问题和提供支持。"
},
{
"instruction": "请问你的名字及开发人员？",
"input": "",
"output": "您好，我名叫xxx，由xxx研发。我的主要职责是回答用户的疑问并提供相关支持。"
},
]

复制代码

注册数据集

首先找到数据集的管理文件，打开llamafactory/data目录下的dataset_info.json文件
添加一条数据

"a_my_data": {
"file_name": "my_data_zh.json"
},

复制代码

然后在面板中选择这条你的数据

模型名称：选择你之前下载的模型。这里将决定采用何种网络结构解析模型。
模型路径：这里就是上文下载的模型文件目录。
微调方法：这里可选择lora、full、freeze三种模式，普通用户请选择lora。
full：全量模型训练。该模型将斲丧大量显存。以8B模型为例，8b等于80亿参数，占用显存约8*2+8 = 24G，所以普通显卡就不要考虑这个模式了
lora：微调模型训练：这个占用显存较小，经测试4080显卡可以跑起来
数据集：由于我们刚才注册了本身的数据，所以这里点框后就会弹出数据列表，选中我们的自界说数据即可。留意这里允许数据集多选。其他设置视你的实际环境而定，最主要的设置已经完成了。
接下来拉到页面最下方，点击“开始”按钮就可以开始训练了
然后举行评估试用和导出

安装 llama.cpp

git clone https://github.com/ggerganov/llama.cpp

复制代码

编译

cd llama.cpp
make

复制代码

转换

python convert_hf_to_gguf.py /root/autodl-tmp/qwen/qwen2051

复制代码

对FP16模型举行4-bit量化(可选），如果希望精简模型的话

./quantize ./models/your_model/xxx ./models/your_model/xxx q4_0

复制代码

三下载ollama
访问ollama.com，下载Ollama客户端，下载Windows版本，如果你的电脑是MacOs,下载对应的版本即可。
安装完成后，打开Windows命令窗口，输入ollama，出现如下提示，说明安装乐成，可以使用了：

导入你的模型：
在cmd中，cd 你的模型所在目录
创建一个Modelfile文件内容如下：

# FROM 指定 GGUF 文件的路径
FROM D:/AI/Download/Llama3-8B-Chinese-Chat-q8_0-v2_1.gguf

复制代码

导入你的模型

ollama create qwen05 -f ./Modelfile

复制代码

查看当前模型目录

ollama list

复制代码

然后运行

ollama qwen05

复制代码

使用postman测试api端口

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

使用llama factory对语言模型微调，重塑自我认知，并摆设于ollama上 ...

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

0 个回复

快速回复

楼主热帖

标签云