微调一个自己的大模型(腾讯云cloud studio + llama factory)
最近就是新项目和老项目一起支持,老项目的人以为我还在支持,然后新项目的人以为我不在支持老项目了。本来我还乐呵呵的两边一起支持,厥后领导突然问我怎么还在干老项目,让我把老项目的事情交给另一个同事去干。
感觉有点吃力不讨好之后,我直接完全不管老项目了,在我的署名上直接加上了老项目支持=〉xx同事。
…
新项目这边之前干过一个星期,有点基础,上手也挺快。
这周当了两天测试,当了几天开发,解了一个问题单。
具体的话就是把转测的门槛用例测完了,开发了一个完整的新功能,然后定位了一个并发问题。
工作内容挺饱满,属于是又有输出了hhh
…
本来以为必要一段时间才能微调一个自己的大模型,效果上周下班后,花了几天时间,居然调好了一个
我这边选用的是腾讯云cloud studio + llama factory来调的。
首先我自己没有gpu环境,就只能搞个服务器来弄。碰巧腾讯云可以白嫖GPU服务器,全部就用它了,链接如下:
https://ide.cloud.tencent.com/dashboard/gpu-workspace
这个GPU服务器的内存是1.5G,不算大,但是既然我是白嫖怪,我就只能说腾讯大气
https://i-blog.csdnimg.cn/direct/d046e4d6a29a4bb48e2c86b7e7bc99f7.png
接着我找了个开源的微调框架llama factory,本来预备用ChatGLM的谁人微调教程的,但是看了一下,前者好像用的人更多,也更通用,以是就选它了
我这边的话,微调并使用自己的大模型分为3部
[*]微调开源大模型,保存参数
[*]将模型输出成gguf格式保存
[*]使用Ollama摆设自己的大模型
第一步的话,因为我的显存只有1.5G,以是我选择微调Qwen2.5-0.5b的大模型,这个模型必要的显存大概估计如下:
参数0.5G、梯度0.5G、优化器0.3G左右,大概1.3G,以是我的服务器可以调起来。
最后调的时候我发现它实际占用只有700M左右,完全足够。
首先要自己整个huggingface的帐号,因为很多开源模型都是在这里下载的。留意,自己要在网站上生成一个token,然后在服务器登陆。
pip install --upgrade huggingface_hub
# Linux
export HF_ENDPOINT=https://hf-mirror.com
huggingface-cli login
然后下载llama factory
git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e "."
微调大模型: 可以直接在已有的example上修改即可修改一下模型的名字,和自己微调数据集就好。
llamafactory-cli train examples/train_lora/llama3_lora_sft.yaml
llamafactory-cli chat examples/inference/llama3_lora_sft.yaml
llamafactory-cli export examples/merge_lora/llama3_lora_sft.yaml
我这里修改了模型名称为qwen2.5-0.5b, 然后参数类型把bf16改成了false。
https://i-blog.csdnimg.cn/direct/21bdf9a9e40443d2a76bac085fc8428b.png
在训练好后,模型参数就会保存下来。
https://i-blog.csdnimg.cn/direct/ba5be209ac4a4eef9270e83a49d81d1e.png
接下来第二步就是根据模型参数,输出模型的gguf文件。
git clone https://github.com/ggerganov/llama.cpp
cd /root/autodl-tmp/llama.cpp
python convert_hf_to_gguf.py /workspace/LLaMA-Factory-main/models/llama3_lora_sft --outfile /workspace/tmp/qwen2.5-0.5b-sft.gguf --outtype q8_0
最后一步就是运行自己的模型。
在保存下来的模型文件位置新建一个配置文件test.mf
FROM ./qwen2.5-0.5b-sft.gguf
https://i-blog.csdnimg.cn/direct/70dc03d54bb84590936784e6db3726a1.png
然后ollama创造一个model
ollama create myModel -f ./test.mf
最后运行模型 ollama run myModel,然后在enchanted里面与模型对话。
https://i-blog.csdnimg.cn/direct/452d2cdee3554411829963fe9eab5ded.png
就成功摆设好自己微调的大模型了
补充一下,最后我这个微调的大模型非常的垃圾,感觉还不如原来的0.5b hhhh。
微调大模型,感觉还是得大显存微调大参数模型,同时微调的数据集也要好。否则感觉微调了个寂寞。
职场菜鸟继续闯关ing
怎样学习AI大模型?
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习头脑导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果必要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
https://i-blog.csdnimg.cn/img_convert/6e1db5d4a6600c0e603d19d7687421c6.jpeg 一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的焦点技能!
https://img-blog.csdnimg.cn/direct/73960f44794245eb988e286620c38b59.png
二、640套AI大模型陈诉合集
这套包含640份陈诉的合集,涵盖了AI大模型的理论研究、技能实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套陈诉合集都将为您提供宝贵的信息和启示。
https://img-blog.csdnimg.cn/direct/ecbe365405e6442986e91b29da53efbd.png
三、AI大模型经典PDF籍
随着人工智能技能的飞速发展,AI大模型已经成为了当今科技领域的一大热门。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强盛的语言明白和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
https://img-blog.csdnimg.cn/direct/f3f83643ea7e4954ad51c4b3099dddc6.png
四、AI大模型商业化落地方案
https://img-blog.csdnimg.cn/direct/de6bd4e8e37c4e61a79c37b2551d466e.png
作为平凡人,入局大模型时代必要连续学习和实践,不断进步自己的技能和认知程度,同时也必要有责任感和伦理意识,为人工智能的健康发展贡献力量。
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页:
[1]