ToB企服应用市场:ToB评测及商务社交产业平台

标题: llama.cpp模型推理之界面篇 [打印本页]

作者: 三尺非寒    时间: 2024-7-14 23:47
标题: llama.cpp模型推理之界面篇


目次
前言
一、llama.cpp 目次结构
二、llama.cpp 之 server 学习
1. 介绍
2. 编译部署
3. 启动服务
4、扩展或构建其他的 Web 前端
5、其他

前言

在《基于llama.cpp学习开源LLM当地部署》这篇中介绍了基于llama.cpp学习开源LLM当地部署。在最后简单介绍了API 的调用方式。不习惯命令行的同鞋,也可以试试 llama.cpp 界面的交互方式,本章就详细介绍一下server。


一、llama.cpp 目次结构


整个目次比较简洁,没多少东西,以最少的代码实现最全的功能,值得学习。文档都很全,基本上在学习该推理框架时遇到或者没有想到,你都能在根目次或子目次的README.md 找到。
本章主要讲 server的界面。可以在examples/server下看看README。或者直接翻到根目次下打开README.md. 找到如下点击:
 

二、llama.cpp 之 server 学习

1. 介绍

 llama.cpp 的 server 服务是基于 httplib 搭建的一个简单的HTTP API服务和与llama.cpp交互的简单web前端。
server命令参数:

2. 编译部署

    编译部署请参考《基于llama.cpp学习开源LLM当地部署》。会在跟目次下生成 ./server
3. 启动服务

  1. ./server -m ../models/NousResearch/Llama-2-7b-chat-hf/ggml-model-q4_0.gguf -c 2048
复制代码
服务启动乐成后,如下:

点击或者在浏览器中输入:http://127.0.0.1:8080

 可以看到:交互模式,提示词、用户名、提示词模板另有模型参数等设置。打开“更多选型”,如下:

这些参数默认就行,也可以根据实际环境调整。
在最下面输入一些内容,点击“send”,就能与模型进行谈天了。

从学习的角度来看,是不是很方面。不消敲命令,也不消单独搭建前端。直接就能体验大模型,也能学习里面机制与原理。
4、扩展或构建其他的 Web 前端

web静态文件的默认位置是“examples/server/public”。您可以通过运行./server并将“--path”设置为“./your-directory”并导入“/completion.js”来访问 llamaComplete() 方法来扩展前端。
  1. A simple example is below:
  2. <html>
  3.   <body>
  4.     <pre>
  5.       <script type="module">
  6.         import { llama } from '/completion.js'
  7.         const prompt = `### Instruction:
  8. Write dad jokes, each one paragraph.
  9. You can use html formatting if needed.
  10. ### Response:`
  11.         for await (const chunk of llama(prompt)) {
  12.           document.write(chunk.data.content)
  13.         }
  14.       </script>
  15.     </pre>
  16.   </body>
  17. </html>
复制代码
5、其他

更多功能和参数,详见llama.cpp/examples/server/README.md。




免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。




欢迎光临 ToB企服应用市场:ToB评测及商务社交产业平台 (https://dis.qidao123.com/) Powered by Discuz! X3.4