简介
深思-8B 是一个开创性的人工智能模型,它彻底改变了我们对待人工智能和办理问题的方式。该模型由 Ruliad 开发,基于 LLaMA-3.1 8B,为人工智能推理提供了一个独特的视角,使其更加透明和可控。尽管 Deepthought-8B 的体积相对较小,但它却展示了非凡的推理能力,可与该范畴中更大的模型相媲美。
模型描述
深思-8B 接纳新颖的方法来办理问题,将复杂的任务分解为清晰、明确和有据可查的步骤。该模型善于提供结构化、透明的推理过程,使开发人员和用户更容易理解和验证其决策。
主要特点
- 透明推理: Deepthought-8B 逐步记录其头脑过程,确保人们清晰相识其推理过程。
可编程方法: 该模型可自定义推理模式,无需重新练习,因此可适应各种场景。
- 测试时间计算扩展: 它可以根据任务复杂度来扩展推理深度,从而优化性能。
- 高效扩展: Deepthought-8B 接纳 16GB+ VRAM,计划高效。
- 结构化输出: 该模型以 JSON 格式输出推理链,使集成和分析变得简单明了。
技能要求
要使用 Deepthought-8B,开发人员需要满足以下技能要求:
- Python 3.6 以上
- PyTorch
- Transformers
- 16GB+ VRAM
- 可选: Flash Attention 2 可提高性能
安装
安装非常简单:
安装所需的库
- pip install torch transformers
复制代码 可选择安装 Flash Attention 2 以提高性能:
使用方法
- 将您的 HuggingFace 令牌设置为情况变量:
- export HF_TOKEN=your_token_here
- export HF_HUB_ENABLE_HF_TRANSFER=1
复制代码- from transformers import AutoModelForCausalLM, AutoTokenizer
- import torch
- # Initialize the model
- model_name = "ruliad/deepthought-8b-llama-v0.01-alpha"
- tokenizer = AutoTokenizer.from_pretrained(
- model_name,
- add_bos_token=False,
- trust_remote_code=True,
- padding="left",
- torch_dtype=torch.bfloat16,
- )
- model = AutoModelForCausalLM.from_pretrained(
- model_name,
- torch_dtype=torch.bfloat16,
- device_map="auto",
- attn_implementation="flash_attention_2", # Use "eager" (or omit) if flash_attn is not installed
- use_cache=True,
- trust_remote_code=True,
- )
复制代码- python deepthought_inference.py
复制代码 输出示例
Deepthought-8B 以 JSON 格式提供结构化推理,使其易于解释:
{
“step”: 1,
“type”: “problem_understanding”,
“thought”: “Understanding the user’s objective for the task.”
}
每个推理链都包括多个步骤,涵盖问题理解、数据网络、分析、计算、验证、结论得出和实行。
性能
Deepthought-8B 在各种基准测试中都体现出令人印象深刻的性能:
- 逐步办理问题
- 编码和数学任务
- 通过透明推理依照指令
- 通过测试时间计算实现可扩展性能
限制
固然 Deepthought-8B 功能强盛,但也有一些已知的限制:
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |