AIGC 实战教程 —— AIGC 摩天大楼
AIGC 实战教程 —— AIGC 摩天大楼[*] AIGC 实战教程 —— AIGC 摩天大楼
[*] 第一层 LLMs 入门篇
[*] 第二层 LLMs 指令微调篇
[*] 第三层 LLMs 应用实战篇
[*] 第四层 LLMs 推理优化篇
[*] 第五层 LLM API性能评估 篇
[*] 第六层 Stable Diffusion 文生图 篇
[*] 第七层 OCR 篇
[*] 第八层 ASR 篇
[*] 第九层 TTS 篇
[*] 第十层 人像分割 篇
[*] 第十一层 Language-Image 篇
[*] 第十二层 Ai 换脸 篇
[*] 第十三层 Ai 文生视频 篇
[*] 第十四层 Ai 图生视频 篇
[*] 第十五层 Ai 动作迁徙 篇
[*] 第十六层 Ai 虚拟试衣 篇
[*] 第十七层 数字人 篇
[*] 第十八层 全模态理解 篇
[*] 第十八层 Ai音乐生成 篇
第一层 LLMs 入门篇
DeepSeek 系列
[*] AiGC摩天大楼 —— 第一层 LLMs 之 DeepSeek R1系列——DeepSeek R1初体验 :fire:
[*] AiGC摩天大楼 —— 第一层 LLMs 之 DeepSeek R1系列——怎样使用 Ollama 在本地运行 DeepSeek R1? :fire:
[*] AiGC摩天大楼 —— DeepSeek R1系列——怎样使用 Ollama和DeepSeek R1搭建RAG系统? :fire:
[*] DeepSeek-R1 复现 :fire:
[*] 介绍:单卡RTX4090部署R1满血版
[*] 介绍: 怎样 QWen2.5 基础模型 GRPO 训练 复现Deepseek-R1。
[*] AiGC摩天大楼 —— 第一层 LLMs 之 DeepSeek R1系列——QWen2.5 基础模型 GRPO 训练 复现Deepseek-R1 :fire:
[*] AiGC摩天大楼 —— 第一层 LLMs 之 DeepSeek R1系列——KTransformers 实战篇—单卡RTX4090部署R1满血版 :fire:
[*] AiGC摩天大楼 —— 第一层 LLMs 之 DeepSeek R1系列——LLMs 之 DeepSeek-R1 复现:Logic-RL :fire:
[*] AiGC摩天大楼 —— 第一层 LLMs 之 DeepSeek R1系列——LLMs 之 DeepSeek-R1 复现:TinyZero :fire:
[*] AiGC摩天大楼 —— DeepSeek R1系列——LLMs 之 DeepSeek-R1 复现:Open R1 :fire:
[*] 第一层 LLMs之DeepSeek-R1 复现:使用 open-r1 基于 gsm8k 数据集复现DeepSeek R1 :fire:
[*] 怎样使用 open-r1 基于 gsm8k 数据集复现DeepSeek R1 代码讲解 :fire:
[*] DeepSeek-R1 复现——蒸馏篇 :fire:
[*] 怎样使用 蒸馏 DeepSeek-R1-Distill-Qwen-14B(一)
[*] 怎样使用蒸馏 DeepSeek-R1-Distill-Qwen-14B (二)
[*] 怎样利用 swift 蒸馏 中文DeepSeek-R1 小模型
Simple test-time scaling 系列
[*] s1: Simple test-time scaling 论文笔记:fire:
[*] s1: Simple test-time scaling 实践:fire:
第一阶 阿里系列
[*] AiGC摩天大楼 —— 第一层 LLMs 之 Marco-o1 :fire:
[*] 论文:Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions
[*] Arxiv:https://arxiv.org/abs/2411.14405
[*] Github:https://github.com/AIDC-AI/Marco-o1
[*] 介绍:Marco-o1是一个模仿OpenAI o1,使用思维链,旨在解决复杂的现实问题,强调开放式答案和多语言应用。Marco-o1 是一个旨在支持开放性解决方案的推理模型,特别关注复杂的现实世界问题解决。该模型受到 OpenAI 的 o1 模型的启发,旨在突破尺度化知识领域的限定,探索其在缺乏明确尺度和难以量化奖励的更广泛领域中的通用性。
[*] AiGC摩天大楼 —— 第一层 LLMs 之 QwQ: 千问团队开源会思索 :fire:
[*] 中文博客:https://qwenlm.github.io/zh/blog/qwq-32b-preview/
[*] 介绍:阿里巴巴通义千问团队本日正式发布实验性研究模型 QwQ-32B-Preview,并配以博文《QwQ: 思忖未知之界》详解其设计理念与性能表现。作为一款专注数学与编程推理的开源大模型,QwQ-32B-Preview 成为全球首个以宽松许可(Apache 2.0)提供的同类领先模型,并在多个基准测试中超越 OpenAI 的 o1-preview 模型。
[*] AiGC摩天大楼 —— 第一层 LLMs 之 Open Chat-o1 篇 :fire:
[*] 介绍:在技术博客《Learning to Reason with LLMs》中,OpenAI 对 o1 系列语言模型做了具体的技术介绍。OpenAI o1 是颠末强化学习训练来执行复杂推理使命的新型语言模型。特点就是,o1 在答复之前会思索 —— 它可以在响应用户之前产生一个很长的内部思维链。也就是该模型在作出反应之前,需要像人类一样,花更多时间思索问题。通过训练,它们学会美满本身的思维过程,实验不同的策略,并认识到本身的错误。在 OpenAI 的测试中,该系列后续更新的模型在物理、化学和生物学这些具有挑战性的基准使命上的表现与博士生相似。OpenAI 还发现它在数学和编码方面表现出色。
[*] AiGC摩天大楼 —— 第一层 LLMs 之 Qwen2 本地部署
[*] 介绍:相比Qwen1.5,Qwen2在大规模模型实现了非常大幅度的效果提拔。我们对Qwen2-72B进行了全方位的评测。在针对预训练语言模型的评估中,对比当前最优的开源模型,Qwen2-72B在包罗自然语言理解、知识、代码、数学及多语言等多项本领上均显著超越当前领先的模型,如Llama-3-70B以及Qwen1.5最大的模型Qwen1.5-110B。这得益于其预训练数据及训练方法的优化。
[*] AiGC摩天大楼 —— 第一层 LLMs 之 Qwen2.5 篇
[*] github: https://github.com/QwenLM/Qwen2.5
[*] Qwen2.5-7B-Instruct: https://modelscope.cn/models/qwen/Qwen2.5-7B-Instruct/files
[*] 官网:https://qwen.readthedocs.io/zh-cn/latest/
[*] 博客:https://qwenlm.github.io/
[*] 介绍:Qwen是阿里巴巴团体Qwen团队研发的大语言模型和大型多模态模型系列。目前,大语言模型已升级至Qwen2.5版本。无论是语言模型还是多模态模型,均在大规模多语言和多模态数据上进行预训练,并通过高质量数据进行后期微调以贴近人类偏好。Qwen具备自然语言理解、文本生成、视觉理解、音频理解、工具使用、角色饰演、作为AI Agent进行互动等多种本领。
第七届 Gemma 系列
[*] AiGC摩天大楼 —— 第一层 LLMs之Gemma 3:谷歌最新开源多模态AI模型,单GPU性能碾压Llama!
[*] 介绍:Gemma 3 是谷歌最新推出的开源人工智能模型,专为开发者设计,支持多种装备上的人工智能应用开发。它支持凌驾 35 种语言,具备分析文本、图像及短视频的本领,提供四种不同尺寸的模型(1B、4B、12B 和 27B),满足不同硬件和性能需求。
第七届 Kimi 系列
[*] AiGC摩天大楼 —— 第一层 LLMs之Kimi开源Moonlight-16B-A3B:基于Muon优化器的高效大模型,性能与训练服从双突破!
[*] 权重衰减:对扩展到更大模型至关紧张
[*] 同等的RMS更新:在模型更新中保持同等的均方根
[*] 介绍:Muon优化器在训练小规模语言模型方面展示了强大的效果,但其在大规模模型上的可扩展性尚未得到验证。Kimi确定了两个扩展Muon的关键技术:
[*] 这些技术使Muon能够在大规模训练中开箱即用,无需超参数调优。扩展定律实验表明,在计算最优训练中,Muon相较通常默认使用的AdamW优化器,能提供高约2倍的样本服从。
[*] 基于这些改进,Kimi基于Muon训练了Moonlight-16B-A3B系列模型。这是一个具备16B参数(激活参数为3B)的专家混合(MoE)模型,使用5.7T个token数据训练得到。该模型模型改进了当前的帕累托前沿,与之前的模型相比,使用更少的训练FLOPs就能实现更好的性能。
[*] 同时Kimi开源了内存优化和通讯服从高的Muon实现,还发布了预训练、指令微调和中间查抄点,以支持未来的研究。
第六届 Phi 系列
[*] AiGC摩天大楼 —— 第一层 LLMs 之 Phi-4系列:多模态与文本处置惩罚的创新突破
[*] 介绍:Phi-4-mini是一个 3.8B 参数模型和一个密集的解码器专用转换器,具有分组查询注意、200,000 个词汇表和共享输入输出嵌入,专为提高速度和服从而设计。只管体积小巧,但它在基于文本的使命(包罗推理、数学、编码、指令跟踪和函数调用)中的表现仍然优于大型模型。它支持多达 128,000 个标志的序列,具有高准确度和可扩展性,使其成为高级 AI 应用步伐的强大解决方案。
第二阶 Llama 系列
[*] AiGC摩天大楼 —— 第一层 LLMs 之 Llama 3.2 篇
[*] GitHub项目:https://github.com/meta-llama/llama-models
[*] Llama 3.2博客文章:https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/
[*] 介绍:Llama 3.2 主要包罗小型和中型视觉 LLM(11B 和 90B)以及得当边沿和端侧的轻量级纯文本模型(1B 和 3B),包罗预训练和指令调整版本。
[*] AiGC摩天大楼 —— 第一层 LLMs 入门 之 Llama-3 初体验
[*] 介绍:Llama-3是一款由Meta推出的大型开源人工智能语言模型,Llama-3共有80亿、700亿两个参数版本,分为基础预训练和指令微调两种模型(还有一个超4000亿参数正在训练中)。与Llama-2相比,Llama-3使用了15Ttokens的训练数据,在推理、数学、代码生成、指令跟踪等本领获得大幅度提拔。
第三阶 GLM 系列
[*] AiGC摩天大楼 —— 第一层 LLMs 入门 之 ChatGLM3 模型学习与实战
[*] 更强大的基础模型:ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base 接纳了更多样的训练数据、更充分的训练步数和更合理的训练策略。在语义、数学、推理、代码、知识等不同角度的数据集上测评显示,ChatGLM3-6B-Base 具有在 10B 以下的基础模型中最强的性能。
[*] 更完备的功能支持:ChatGLM3-6B 接纳了全新设计的Prompt 格式,除正常的多轮对话外。同时原生支持工具调用(Function Call)、代码执行(Code Interpreter)和 Agent 使命等复杂场景。
[*] 介绍:ChatGLM3 是智谱AI和清华大学 KEG 实验室团结发布的新一代对话预训练模型。ChatGLM3-6B 是 ChatGLM3 系列中的开源模型,在保存了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性:
[*] AiGC摩天大楼 —— 第一层 LLMs 入门 之 LongWriter: 怎样让大模型输出 10k+ 字长文?
[*] 论文名称:LongWriter: Unleashing10,000+ Word Generation from Long Context LLMs
[*] 论文地址:https://arxiv.org/abs/2408.07055
[*] 代码:https://github.com/THUDM/LongWriter
[*] 介绍:LongWriter 作者们发现该问题的本质在于大模型受到监督微调(SFT) 期间看到的示例的限定。也就是说,这种输出限定主要缘故起因在于现有 SFT 数据会合长输出示例的稀缺性导致。针对这一问题,LongWriter 作者们构建了一个 6000 多条2k-20k words 不等的长输出数据集 LongWriter-6k,并在此基础上,对 GLM-4-9B 进行 SFT微调和 DPO对齐。新的模型拥有了能够生成凌驾10,000字/词连贯文本的本领。同时,LongWriter使用多个需要不同长度响应的查询来探测最先辈的长上下文模型的最大输出长度,
第四阶 Baichuan 系列
[*] AiGC摩天大楼 —— 第一层 LLMs 入门 之 Baichuan2 学习与实战
[*] 论文名称:Baichuan 2: Open Large-scale Language Models
[*] 论文地址:https://arxiv.org/abs/2309.10305
[*] Github 代码:https://github.com/baichuan-inc/Baichuan2
[*] 模型:https://huggingface.co/baichuan-inc
[*] 介绍:Baichuan 2 是百川智能推出的新一代开源大语言模型,接纳 2.6 万亿 Tokens 的高质量语料训练。
第五届 Mistral 系列
[*] AiGC摩天大楼 —— 第一层 LLMs 之 Chinese-Mistral: 中文Mistral模型
[*] 介绍:随着Mistral AI公司开源其七十亿参数模型Mistral-7B,该模型超越Llama,成为当前最强大的开源模型之一。Mistral-7B在各类基准测试中,不但凌驾了Llama2-13B,而且在推理、数学、代码生成使命中凌驾Llama2-34B。然而,Mistral-7B的训练语料主要为英文文本,其中文本领较为短缺。其次,Mistral-7B的词表不支持中文,导致其对中文的编码和解码服从较低,限定了在中文场景的应用。为了克服这一局限,我们基于Mistral-7B进行了中文词表扩充和增量预训练,增强了Mistral-7B在中文使命上的表现,并提高了其对中文文本的编解码服从。
第二层 LLMs 指令微调篇
[*] LLMs 指令微调数据构建篇
[*] AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 LM合成LLM训练数据方法汇总
[*] AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 QA 问答对批量生成篇
[*] 基于模型篇
[*] AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 Qwen2 微调
[*]
[*] AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 ChatGLM3 模型微调学习与实战
[*] AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 Baichuan2 学习与实战
[*] AiGC摩天大楼 —— 第二层 LLMs 之 DeepSeek-llm-7B-Chat LoRA 微调
[*] 基于 LLaMA-Factory 框架篇
[*] AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 继承预训练篇
[*] AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 指令微调篇
[*] AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 奖励模型训练篇
[*] AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 PPO训练篇
[*] AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 DPO训练篇
[*] 基于 Firefly 框架篇
[*] AiGC摩天大楼 —— 第二层 LLMs 指令微调 之 Firefly 进行大模型微调
第三层 LLMs 应用实战篇
第三层 第一阶 LLMs RAG实战系列
[*] AiGC摩天大楼 —— 第三层 LLMs RAG实战 之 RAG潘多拉宝盒
[*] RAG 开源项目推荐 —— QAnything 篇
[*] RagFlow 篇
[*] 其他
[*] RAG 项目推荐——RagFlow 篇(一)——RagFlow docker 部署
[*] RAG 项目推荐——RagFlow 篇(二)——RagFlow 知识库构建
[*] RAG 项目推荐——RagFlow 篇(三)——RagFlow 模型供应商选择
[*] RAG 项目推荐——RagFlow 篇(四)——RagFlow 对话
[*] RAG 项目推荐——RagFlow 篇(五)——RAGFlow Api 接入(以 ollama 为例)
[*] RAG 项目推荐——RagFlow 篇(六)——RAGFlow 源码学习
[*] 【LLMs 入门实战】基于 本地知识库 的高效
页:
[1]