SQL-Server用 llama.cpp 体验 Meta 的 Llama AI 模子

tsx81428 发表于 2024-11-28 12:15:29

用 llama.cpp 体验 Meta 的 Llama AI 模子

继续体验 Meta 开源的 Llama 模子，前篇试用 Llama-3.1-8B-Instruct AI 模子直接用 Python 的 Tranformers 和 PyTorch 库加载 Llama 模子举行推理。模子训练出来的精度是 float32, 加载时采用的精度是 torch.bfloat16。
注：数据类型 torch.float32, torch.bfloat16, 与 torch.float16 有不同的指数(Exponent)，尾数(Fraction)宽度, 它们都有一位是符号位，所以剩下的分别为指数位和尾数位宽度, torch.float32(8, 23), torch.bfloat16(8, 7), torch.float16(5, 10)。
模子依赖于 GPU 的显存，根据履历, 采用 16 位浮点数加载模子的话，推理所需显存大小(以 GB 为单) 是模子参数量(以 10 亿计) 的两倍，如 3B 模子须要约 6G 显存。如果对模子进一步量化，如精度量化到 4 位整数，则所需显存大小降为原来的 1/4 到 1/3, 意味着 3B 模子只要 2 G 显存就能举行推理。所以我们可以把一个 3B 的模子塞得手机里去运行，如果是 1B 的模子 int4 量化后内存占用不到 1G(0.5 ~ 0.67)。
本文体验 llama.cpp 对模子举行推理，在 Hugging Face 的用户设置页面 Local Apps and Hardware, 可看到一些流行的跑模子的应用程序，分别是

[*]生成文本的: llama.cpp, LM Studio, Jan, Backyard AI, Jellybox, RecurseChat, Msty, Sanctum, LocalAI, vLLM, node-llama-cpp, Ollama, TGI
[*]文生图的: Draw Things, DiffusionBee, Invoke, JoyFusion
阅读全文 >>

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

页: [1]

IT评测·应用市场-qidao123.com技术社区's Archiver

用 llama.cpp 体验 Meta 的 Llama AI 模子