2024/07/09
本文属于“LLM入门”系列,该系列是笔者自学LLM时记载的一些实践记载与心得,可能存在错误或过时的部分,请读者体贴。
对于LLM入门学者,我推荐从Large Language Model Course开始,这是一份优秀的学习路径引导。
本文为笔者二次整理的资料,重点关注在Colab上用根本方法部署Llama的指令过程。如有其他需求请参考对应博客:
参考:Getting Started with LlaMA 2: A Beginner’s Guide
LangChain 是一个用于开发由语言模子驱动的应用步伐的框架。接下来基于LangChain在Colab上部署使用meta-llama/Llama-2-7b-chat-hf。
总体来看,部署一个LLM可以归纳为以下步骤:
网上有不少教程使用model = AutoModelForCausalLM.from_pretrained(model_name, token=True)加载模子,默认环境下,这种方式加载模子会使用 float32(32位浮点数)作为其张量的数据类型。但是Colab提供的T4 GPU资源受限,实践中会出现ran out of RAM报错。