书生大模型全链路开源开放体系

打印 上一主题 下一主题

主题 1045|帖子 1045|积分 3139

全链条开源,与社区生态无缝毗连

数据

书生·万卷

首个精致处置惩罚的开源多模态语料库
Miner U

一站式开源高质量数据提取工具,支持多格式(PDF/网页/电子书),智能萃取,天生高质量预训练/微调语料。


  • 复杂版面/公式精准识别
  • 性能凌驾商业软件
Label LLM

专业致力于LLM对话标注,通过灵活多变的工具设置与多种数据模态的广泛兼容,为大模型量身打造高质量的标注数据。


  • 支持指令采集、偏好收集、对话评估…
  • 多人协作、任务管理、源码开放可修改
Label U

一款轻量级开源标注工具,自由组合多样工具,无缝兼容多格式数据,同时支持载入预标注,加载数据标注服从。


  • 支持图片、视频、音频多种数据标注
  • 小巧灵活,AI标注导入二次人工精修
预训练

InternEvo

性能凌驾国际主流训练框架DeepSpeed
模型训练

InternLM、LLAMA、LLAVA、MoE
分布式训练系统


  • 分布式训练数据并行、流水并行、张量并行、序列并行、权重并行、自动并行
  • 仿真器求最优解并行设置
  • 通讯优化集合/p2p通讯
  • 显存优化
  • 计算加速、高性能算子库、算子融合、混淆精度训练
训练支持系统


  • 非常恢复
  • 可视化
  • 跨集群任务调理
  • 日志系统
  • 监控系统
  • 告警系统
根本办法


  • 跨硬件平台:CPU/GPU/NPU
  • 存储:分布式文件存储/OSS
  • 网络:训练/数据网络
大模型训练

支持千卡以上模型训练,千卡加速比可达92%
极致性能优化

4D并行+Ring Attention最高支持1M长文训练
软硬件生态

兼容HuggingFace生态
支持NV与910B筹集群
全场景训练

预训练+微调+RLHF
全场景覆盖
微调

XTuner


  • 适配多种生态


  • 多种微调算法
    多种微调&偏好对齐算法,覆盖各类应用场景
  • 适配多种开源生态
    支持加载HuggingFace、ModelScope模型或数据集
  • 自动优化加速
    开辟者无需关注复杂的显存优化与计算加速细节
    支持千亿参数+百万上下文训练

  • 适配多种硬件


  • 训练方案覆盖NVIDIA 20系以上全部显卡
  • 最低只需 8GB 显存即可微调 7B模型

部署

LMDeploy

团体架构

评测

OpenComass评测体系

获得 Meta 官方推荐唯一国产大模型评测体系
开源社区最完善的评测体系之一凌驾100+评测集50万+题目
三位一体


工具-基准-榜单
应用

智能体 Lagent

轻量级智能体框架

  • 支持多种范例的智能体本领
  • 灵活支持多种大语言模型
  • 简单易扩展,支持丰富的工具
HuixiangDou 企业级知识库构建工具

介绍:HuixiangDou是群聊场景LLM知识助手,为即时通讯群聊场景计划。
场景特点:无关题目不吭声、明确答复的直接复兴、不违背核心代价观
特性:


  • 开源:BSD-3-Clasue免费商用
  • 实战派:应用RAG和KG,1500+知识库,500+用户群,业务数据实测精度
  • 领域知识:7中文档格式,更新立即生效
  • 安全:支持私有化部署,数据不上传
  • 简单便宜:最低仅2G显存,支持现有客户群
  • 扩展性强:2类IM软件,9个LLM接口
社区生态



  • Hugging Face
  • LLM
  • LLaMA
  • TensorRT-LLM
  • LM Studio
  • LLaMA-Factory
  • LIamaIndex
  • LangChain
  • ollama
  • MLX
  • llamafile
  • Swift

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
回复

使用道具 举报

0 个回复

倒序浏览

快速回复

您需要登录后才可以回帖 登录 or 立即注册

本版积分规则

东湖之滨

论坛元老
这个人很懒什么都没写!
快速回复 返回顶部 返回列表