tsx81428 发表于 2024-11-28 12:15:29

用 llama.cpp 体验 Meta 的 Llama AI 模子

继续体验 Meta 开源的 Llama 模子,前篇 试用 Llama-3.1-8B-Instruct AI 模子 直接用 Python 的 Tranformers 和 PyTorch 库加载 Llama 模子举行推理。模子训练出来的精度是 float32, 加载时采用的精度是 torch.bfloat16。
注:数据类型 torch.float32, torch.bfloat16, 与 torch.float16 有不同的指数(Exponent),尾数(Fraction)宽度, 它们都有一位是符号位,所以剩下的分别为指数位和尾数位宽度, torch.float32(8, 23), torch.bfloat16(8, 7), torch.float16(5, 10)。
模子依赖于 GPU 的显存,根据履历, 采用 16 位浮点数加载模子的话,推理所需显存大小(以 GB 为单) 是模子参数量(以 10 亿计) 的两倍,如 3B 模子须要约 6G 显存。如果对模子进一步量化,如精度量化到 4 位整数,则所需显存大小降为原来的 1/4 到 1/3, 意味着 3B 模子只要 2 G 显存就能举行推理。所以我们可以把一个 3B 的模子塞得手机里去运行,如果是 1B 的模子 int4 量化后内存占用不到 1G(0.5 ~ 0.67)。
本文体验 llama.cpp 对模子举行推理,在 Hugging Face 的用户设置页面 Local Apps and Hardware, 可看到一些流行的跑模子的应用程序,分别是

[*]生成文本的: llama.cpp, LM Studio, Jan, Backyard AI, Jellybox, RecurseChat, Msty, Sanctum, LocalAI, vLLM, node-llama-cpp, Ollama, TGI 
[*]文生图的: Draw Things, DiffusionBee, Invoke, JoyFusion
阅读全文 >>

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
页: [1]
查看完整版本: 用 llama.cpp 体验 Meta 的 Llama AI 模子