比年来,人工智能技术火热发展,尤其随着ChatGPT和DeepSeek被提出,其可以或许基于在预训练阶段所见的模式、统计规律和知识来生成回答,还能根据谈天的上下文进行互动,真正像人类一样来谈天交流以及完成复杂的NLP使命。基于此,为更好地学习前沿AI知识,相识LLM和AIGC应用实战,本人开启了《LLM+AIGC》专栏,一方面作为在线笔记记录和分享自己的学习过程,另一方面期望帮助更多初学者以及对LLM感爱好的同学。知识无价人有情,盼望我们都能在人生路上开心快乐、共同发展。
该系列紧张涵盖三方面:
- 原理篇——以原理先容和论文阅读为主
- 实战篇——以编程实现和构建自制LLM和RAG为主
- 应用篇——以应用实践和API、Prompt探索为主
前一篇文章普及了ChatGPT应用场景,简单先容什么是大语言模型(LLM)和人工智能生成内容(AIGC)。这篇文章将带领各人探索DeepSeek,并尝试在云端搭建,与ChatGPT 4o进行简单对比。基础性文章,盼望对初学者有所帮助!且看且珍惜,加油 O(∩_∩)O
前文赏析:
- [LLM+AIGC] 01.应用篇之中文ChatGPT初探及利用ChatGPT润色论文对比浅析(文心一言 | 讯飞星火)
- [LLM+AIGC] 02.零基础DeepSeek入门初探及云端搭建详解(ChatGPT对比)
一.什么是DeepSeek
Deepseek(中文名:深度求索) 是一种基于深度学习技术的智能搜刮和信息检索体系,是一款由杭州深度求索人工智能基础技术研究有限公司开发的大规模预训练语言模型。它通过模拟人类认知过程,利用神经网络模型对大量数据进行处置处罚和分析,从而实现对复杂查询的高效相应。Deepseek的核心在于其可以或许理解自然语言查询的语义,并从海量数据中提取出最相关的信息。它的英文名“DeepSeek”可以读作“深思”(Deep)和“探索”(Seek),寓意着通过深度学习技术探索未知的领域。
- 目的:通过海量数据训练和深度神经网络架构,实现高质量文本理解、生成、推理及知识推理等使命
- DeepSeek采取Transformer 布局,结合自注意力机制(Self-Attention)、多头注意力(Multi-Head Attention)以及高效的优化算法,实现更准确的语言建模和语义理解
接下来,作者将结合DeepSeek和ChatGPT,分别对它们进行描述,读者可以比较两种常用大模型生成的结果。譬如:
- 提示词:请以学术语言描述什么是Deepseek,并阐述其基本原理及实现过程。末了请给出初学者怎样使用的建议。
官网地点如下:
1.DeepSeek基本原理
首先,给出DeepSeek官网对其的描述,Deepseek的基本原理建立在深度学习的基础之上,紧张包括以下几个关键步骤:
- 数据预处置处罚:首先,体系会对原始数据进行洗濯和标准化处置处罚,以确保输入数据的质量。这包括去除噪声、处置处罚缺失值、文天职词等。
- 特性提取:利用深度学习模型(如卷积神经网络CNN、循环神经网络RNN或Transformer)从预处置处罚后的数据中提取特性。这些特性可以或许捕捉数据的深条理语义信息。
- 语义理解:通过自然语言处置处罚(NLP)技术,Deepseek可以或许理解用户查询的语义。这通常涉及到词嵌入(Word Embedding)、语义角色标注(Semantic Role Labeling)等技术。
- 信息检索:在理解查询语义的基础上,Deepseek会从数据库中检索出最相关的信息。这一过程通常利用向量空间模型(Vector Space Model)或更高级的语义匹配算法。
- 结果排序与反馈:末了,体系会根据相关性对检索结果进行排序,并将最相关的结果返回给用户。同时,体系还可以通过用户反馈不断优化模型。
接下来,给出ChatGPT的描述。DeepSeek的核心原理基于大规模自回归或自编码预训练,其紧张头脑包括:
- 自监督学习(Self-Supervised Learning):通过海量无标注数据进行训练,使模型可以或许从上下文中学习语法、语义及世界知识。
- 自注意力机制(Self-Attention):利用 Transformer 布局中的多头注意力机制,捕捉序列中的长距离依赖关系,提高文本理解能力。
- 深度 Transformer 堆叠(Deep Transformer Layers):通过堆叠数十层 Transformer 层,使模型可以或许学习复杂的语义和层级信息。
- 大规模数据训练(Massive Pretraining Data):使用高质量、多领域的大规模语料(如网页文本、论文、书籍等),提升模型泛化能力。
- 知识蒸馏与对齐(Knowledge Distillation & Alignment):结合人类反馈(RLHF)、指令微调(Instruction Tuning)等技术,使模型输出更符合用户需求。
DeepSeek 采取自回归(Autoregressive)方式进行文本生成,即通过给定前缀推测下一个 token,从而生成符合语法及语义逻辑的完整文本。
2.实现过程
DeepSeek官网给出的实现过程:
- 模型选择与训练:选择合适的深度学习模型,并在大规模数据集上进行训练。训练过程中需要调解超参数,以确保模型的最佳性能。
- 体系集成:将训练好的模型集成到搜刮体系中,确保其可以或许实时处置处罚用户查询。
- 性能优化:通过分布式盘算、模型压缩等技术,优化体系的相应速度和资源消耗。
- 用户界面设计:设计友爱的用户界面,使用户可以或许方便地输入查询并检察结果。
ChatGPT官网给出的实现过程。DeepSeek 的实现流程紧张包括数据预备、模型训练、优化与微调,详细步骤如下:
- 数据预处置处罚(Data Preprocessing)
– 网络多领域数据(如新闻、百科、代码、对话数据等),确保数据的多样性和质量。
– 进行文本清理(去除低质量内容、去重、处置处罚乱码等)。
– 使用子词分词(Byte Pair Encoding, BPE)或 SentencePiece 进行文天职块,提高训练效率。
- 模型架构设计(Model Architecture)
– 采取Transformer 布局,配置合适的层数(L)、隐蔽单元数(d_model)、注意力头数(H)等超参数。
– 结合位置编码(Positional Encoding) 以捕捉文本顺序信息。
– 采取前馈神经网络(Feed-Forward Networks, FFN) 增强特性表达能力。
- 预训练(Pretraining):
– 目的:学习语言模型的基础能力。
– 方法:采取 自回归目的(Causal Language Modeling, CLM) 或 掩藏语言模型(Masked Language Modeling, MLM) 进行训练。
– 训练数据规模可达万亿 token,采取分布式盘算(如 DeepSpeed、FSDP)提升盘算效率。
- 微调与对齐(Fine-tuning & Alignment)
– 针对差别使命(如问答、代码生成、信息检索)进行指令微调(Instruction Tuning)。
– 结合人类反馈强化学习(RLHF),使模型生成更符合用户需求。
摆设与推理(Deployment & Inference)
– 训练好的 DeepSeek 模型可摆设至 云端 API、本地服务器,支持 GPU 加快推理。
– 采取 低精度推理(如 INT8、FP16) 提升推理速度,降低盘算成本。
末了,推荐各人阅读DeepSeek相关论文,后续作者也尝试分享。
- DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
- https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
同时推荐木尧老师的分享,其总结了三个核心模型,各人可以去学习。原文地点如下:
- 三张图速通 DeepSeek-R1 论文和技术原理 - 木尧
- 一是纯强化学习(后文简称 RL)方案训的 DeepSeek-R1-Zero 验证技术方案可行,Reasoning 能力提升;
- 二是 80w 有监督微调(后文简称 SFT)+ 类似刚才 RL 方案训练的 DeepSeek-R1,能力对标 OpenAI o1;
- 三是直接拿刚才 80w 对 Qwen/Llama 系列模型 SFT 蒸馏出来的小模型,能力对标 OpenAI o1-mini。
3.初学者使用建议
DeepSeek官网给出的初学者使用建议:
- 学习基础知识:初学者应首先把握深度学习、自然语言处置处罚和信息检索的基础知识。推荐学习资源包括Coursera、edX等在线课程。
- 实践项目:通过参与开源项目或自己动手实现简单的搜刮体系,积聚实践履历。GitHub上有许多相关项目可以参考。
- 使用现有工具:利用现有的深度学习框架(如TensorFlow、PyTorch)和NLP工具包(如NLTK、spaCy),快速搭建原型体系。
- 连续学习与优化:深度学习领域发展迅速,初学者应保持连续学习的态度,关注最新的研究成果和技术动态,并不断优化自己的体系。
通过以上步骤,初学者可以渐渐把握Deepseek的原理和实现方法,并可以或许应用于实际的信息检索使命中。
下面事ChatGPT给出的初学者怎样使用 DeepSeek。对于初学者而言,可以按照以下步骤使用 DeepSeek 进行文本处置处罚使命:
(1)安装 DeepSeek 相关依赖
DeepSeek 通常基于 PyTorch 或 TensorFlow 进行训练和推理,可以通过以下方式安装:
- pip install transformers torch deepseek
复制代码 (2)加载预训练模型
DeepSeek 的模型通常托管在 Hugging Face Transformers,可以使用 AutoModel 进行加载:
- from transformers import AutoModelForCausalLM, AutoTokenizer
- # 加载 DeepSeek 预训练模型
- model_name = "deepseek-ai/deepseek-llm"
- tokenizer = AutoTokenizer.from_pretrained(model_name)
- model = AutoModelForCausalLM.from_pretrained(model_name)
- # 设定设备
- device = "cuda" if torch.cuda.is_available() else "cpu"
- model.to(device)
复制代码 (3)进行文本生成
使用 generate() 方法进行文本生成:
- input_text = "人工智能的未来发展方向包括"
- input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to(device)
- # 生成文本
- output = model.generate(input_ids, max_length=100)
- generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
- print("DeepSeek 生成的文本:", generated_text)
复制代码 (4)在特定使命上进行微调
如果盼望在特定领域(如法律、医学、金融)优化 DeepSeek,可进行微调:
- from transformers import Trainer, TrainingArguments
- training_args = TrainingArguments(
- output_dir="./deepseek_finetuned",
- per_device_train_batch_size=4,
- num_train_epochs=3,
- save_steps=500,
- logging_dir="./logs",
- )
- trainer = Trainer(
- model=model,
- args=training_args,
- train_dataset=custom_dataset
- )
- trainer.train()
复制代码
二.DeepSeek注册及尝试
1.DeepSeek初试
DeepSeek注册非常简单,通过手机或微信、邮箱即可登录。
登录之后,DeepSeek谈天界面提供了三种模式:
- 基础模型:DeepSeek-V3,性能比肩环球顶尖的开闭源模型(如4o、Claude-3.5-Sonnet、Qwen2.5、Llama-3.1等)。
- 深度思考(R1):2025年1月发布DeepSeek-R1正式版,效果完全不输OpenAI o1,且开源免费,并瞬间火爆环球。
- 联网搜刮:根据网络搜刮结果回答问题,即RAG(检索增强生成),可以把它理解为DeepSeek的AI搜刮功能。
(1)基础模式
好比我们简单利用DeepSeek进行搜刮,其默认使用基础模型,但该问题未给出详细答案。该模式依赖预训练知识库,回答速度更快,但无法获取最新信息,更适合解决通用知识类问题,且适合初学者解决一些常见问题。
(2)深度思考模式
为让其回答更准确、全面,并具有更好的逻辑性,我们尝试开启深度思考。看看DeepSeek是否能找出“谁是Eastmount”。可以发现深度思考成功识别。
- R1是一个爱思考的深度推理模型,紧张擅长处置处罚数理逻辑、代码和需要深度推理的复杂问题。
(3)联网搜刮模式
接着,我们又尝试联网搜刮,该模式通常用于实时联网搜刮,结合最新的网络及搜刮信息,给出更全面准确的答案,适合需要获取最新信息的场景。给出的内容更为准确,由于其从互联网中找到了28个紧张的网页描述。
DeepSeek 联网搜刮模式总结:
Eastmount是一位技术实力深厚、乐于分享的博主,他的博客内容涵盖广泛,适合差别条理的学习者。如果你是初学者,可以从他的Python和网络安全专栏入手;如果你对AI安全或深度学习感爱好,他的PyTorch和AI安全系列也是不错的选择。
别的,近来比较火的是DeepSeek可以模拟差别名人的风格撰写诗歌。
并且点击按钮可以上传文件进行问答,相关功能后续博客详细探索。
2.DeepSeek vs ChatGPT 4o
下面我们分别比较DeepSeek vs ChatGPT 4o,结合一个初学者经常问的问题来探索,并对比它们的效果。同时,该问题对初学者也非常有帮助。
提示词:
我是一名编程初学者,紧张想利用ChatGPT辅助学习Python机器学习,请告知我怎样利用ChatGPT来进行学习,并给出相关的案例。
(1)DeepSeek 基础模型
生成内容如下:
作为一名编程初学者,利用Deepseek辅助学习Python机器学习是一个非常有前景的方向。Deepseek可以帮助你快速找到相关的学习资源、代码示例、教程息争决方案。以下是怎样利用Deepseek进行学习的步骤和相关案例:
① 利用Deepseek查找学习资源
步骤:
- 明确学习目的:首先明确你想要学习的机器学习主题,例如线性回归、决议树、神经网络等。
- 使用Deepseek搜刮:在Deepseek中输入相关关键词,如“Python 机器学习 线性回归 教程”。
- 筛选结果:根据搜刮结果,选择适合初学者的教程、博客文章或视频。
案例:
- 搜刮“Python 机器学习 入门 教程”,找到一篇详细的入门教程,涵盖Python基础、NumPy、Pandas、Scikit-learn等内容。
- 搜刮“Python 线性回归 示例代码”,找到一个包含完整代码息争释的Jupyter Notebook。
② 利用Deepseek查找代码示例
步骤:
- 明确需求:确定你需要实现的机器学习算法或功能。
- 使用Deepseek搜刮:输入相关关键词,如“Python 决议树 示例代码”。
- 分析代码:阅读并理解找到的代码示例,尝试在自己的环境中运行并修改。
案例:
- 搜刮“Python 决议树 分类 示例代码”,找到一个使用Scikit-learn库实现决议树分类的代码示例。
- 搜刮“Python 神经网络 Keras 示例代码”,找到一个使用Keras构建简单神经网络的代码示例。
③ 利用Deepseek解决问题
步骤:
- 遇到问题:在学习过程中遇到问题时,明确问题的详细描述。
- 使用Deepseek搜刮:输入问题的关键词,如“Python 机器学习 数据预处置处罚 缺失值处置处罚”。
- 参考解决方案:阅读找到的解决方案,理解并应用到自己的代码中。
案例:
- 搜刮“Python 数据预处置处罚 缺失值处置处罚”,找到一篇详细先容如那边理缺失值的博客文章,包含代码示例。
- 搜刮“Python 机器学习 模型评估 交叉验证”,找到一个解释交叉验证原理和实现方法的教程。
④ 利用Deepseek进行项目实践
步骤:
- 选择项目:选择一个感爱好的机器学习项目,如图像分类、文天职类等。
- 使用Deepseek搜刮:输入项目相关的关键词,如“Python 图像分类 项目示例”。
- 参考项目:找到相关的项目示例,理解其实现过程,并尝试自己实现。
案例:
- 搜刮“Python 图像分类 CNN 项目示例”,找到一个使用卷积神经网络进行图像分类的项目示例。
- 搜刮“Python 文天职类 NLP 项目示例”,找到一个使用自然语言处置处罚技术进行文天职类的项目示例。
⑤ 连续学习与优化
步骤:
- 关注最新动态:利用Deepseek关注机器学习领域的最新研究成果和技术动态。
- 参与社区:参加相关的在线社区和论坛,如Stack Overflow、GitHub、Reddit等,与其他学习者交流。
- 不断实践:通过不断实践和优化自己的项目,提升编程和机器学习技能。
案例:
- 搜刮“最新 机器学习 研究论文”,找到一篇关于最新机器学习算法的研究论文,阅读并理解其内容。
- 搜刮“Python 机器学习 社区”,找到一个活跃的机器学习社区,参与讨论和项目互助。
通过以上步骤,你可以有用地利用Deepseek辅助学习Python机器学习,渐渐提升自己的编程和机器学习技能。盼望这些建议对你有所帮助,祝你在学习过程中取得丰硕的成果!
(2)ChatGPT 4o
生成内容如下:
作为一名 编程初学者,利用 ChatGPT 来学习 Python 机器学习 是一个非常高效的方法。ChatGPT 可以帮助你:
- 提供基础知识(如 Python 语法、NumPy、Pandas、Matplotlib、Scikit-Learn)
- 解答编程问题(调试错误、优化代码、解释概念)
- 生成示例代码(快速获取机器学习案例)
- 推荐学习资源(书籍、网站、在线教程)
- 提供项目实践建议(怎样应用机器学习)
① ChatGPT 辅助 Python 机器学习学习路径
|