【AIGC月报】AIGC大模子启元：2025.02（DeepSeek月）

前进之路 · 2025-3-7 09:10:09

（1）o3-mini系列（OpenAI推理大模子）

2025.02.01 今天凌晨3点，OpenAI正式发布了新模子o3-mini，可在ChatGPT和API中可用。
Pro用户可无穷使用o3-mini，Plus和Team用户的速率限制将是o1-mini的3倍。免费版ChatGPT用户可以免费使用o3-mini，但有次数限制。此外，o3-mini可以执行网络搜索功能，并展示完整的深度思索过程。遗憾的是，o3-mini不支持视觉推理。
　　o3-mini也是 OpenAI 首款支持多项开发者需求特性的小型推理模子，包罗函数调用、结构化输出和开发者消息，无需额外调整可直策应用于现实环境中。o3-mini和OpenAI o1-mini、OpenAI o1-preview 一样，也支持流式传输。开发者还能根据具体应用场景，在低、中、高三种推理强度选项中灵活选择：

面临复杂难题时，可选择高推理强度让模子深入思索；
面临延伸敏感问题时，可选择低推理强度优先保证速度。

在性能表现方面，OpenAI o3-mini 针对 STEM 推理举行了优化。

在数学、编码和科学范畴，中等推理强度的o3-mini 性能与OpenAI o1相当，但响应速度更快。专家评估发现，o3-mini给出的答案比OpenAI o1-mini更正确、清楚，推理能力更强。
在美国数学竞赛（AIME 2024）中，低推理强度时o3-mini 与 o1-mini 表现相近，中等推理强度时与o1相当，高推理强度时则逾越 o1-mini 和 o1；
在博士水平科学问题测试中，不同推理强度的 o3-mini 表现同样出色。
在研究级数学测试里，高推理强度的 o3-mini 表现优于其前代模子；
在竞赛编程中，o3-mini 随着推理强度增长，Elo评分逐步提高，均凌驾 o1-mini，中等推理强度时与o1表现相当；
在软件工程测试中，o3-mini 是表现最佳的模子。
在速度上，o3-mini 平均响应时间为7.7 秒，比 o1-mini的10.16秒快了24%。

参考博客：
刚刚，OpenAI发布o3-mini，可免费使用、3大推理模式
首个OpenAI免费推理模子o3-mini发布！DeepSeek让奥特曼反思：不开源我们错了
（2）Falcon 3系列（阿联酋大语言模子）

2025.02.01 位于阿布扎比的科技创新研究院（Technology Innovation Institute, TII）再次推出其重磅产品——Falcon3 系列。作为一组参数规模在10亿以下的解码器（Decoder-only）大型语言模子，Falcon3系列不但在性能和练习效率上取得了紧张突破，还彰显了TII致力于推动开放、可访问的底子模子的刻意。
　　Falcon3 是对其前代模子的自然演进，重点提拔了模子在科学、数学和代码范畴的能力。这一系列包罗五个底子模子：Falcon3-1B-BaseFalcon3-3B-BaseFalcon3-Mamba-7B-BaseFalcon3-7B-BaseFalcon3-10B-Base这些模子通过一系列创新技能实现了高效练习和卓越性能，以下是Falcon3在开发过程中实现的关键技能进展：

1）大规模预练习：在开发Falcon3-7B模子时，研究团队使用了1024颗H100 GPU芯片，并基于14万亿个高质量多语言数据（涵盖Web内容、代码及STEM范畴），举行了一次大规模的预练习。
2）模子深度扩展：通过对冗余层的复制和2万亿高质量数据的进一步练习，研究团队将7B模子扩展为10B参数的Falcon3-10B-Base，乐成提拔了零样本（Zero-shot）和少样本（Few-shot）任务性能。
3）知识蒸馏技能：为开发更加紧凑高效的小模子（如Falcon3-1B和Falcon3-3B），团队接纳了剪枝和知识蒸馏技能，使用不到100GB的精选数据完成预练习，显著提拔了效率。
4）强化数学推理能力：Falcon Mamba 7B模子通过额外练习1.5万亿高质量数据，形成了Falcon3-Mamba-7B-Base版本，大幅提拔了推理和数学任务的表现。
5）丰富的模子变体：全部Falcon3底子模子均提供多种变体，包罗 Instruct、GGUF、GPTQ-Int4、GPTQ-Int8 等，满足多样化的应用需求。

参考博客：
Falcon 3：阿联酋技能创新研究所推出世界上最小、最强大的人工智能模子
猎鹰翱翔：Falcon 3系列模子发布，端侧模子持续发力（Falcon3测试）
（3）Deep Research（OpenAI推理大模子）

2025.02.03 OpenAI临时举行小型发布会。ChatGPT上新“Deep Research”，把推理大模子的思索能力用于联网搜索。
　　Deep Research功能可在数十分钟完成人类专家须要几个小时的复杂研究任务。在“人类最后的考试”上，Deep Research刷新了最高分，比o3-mini高推理设置分数高出一倍。该测试包罗3000多个多选和简答题，涵盖从语言学、火箭科学到生态学的100多个主题。与o1相比，Deep Research最突出的地方在化学，人文和社会科学以及数学中，表现出类似人类的“在须要时寻找专业信息”的能力。
　　另一项测试GAIA，在现实世界问题上评估AI的公开基准测试，Deep Research在3个级别的难度上均刷新记录。
　　OpenAI表现，Deep Research专门为在金融/科学/工程等范畴从事高强度知识工作、须要深入精确且可靠研究的人群而设计。它由OpenAI o3驱动，通过基于真实任务（涉及浏览器和Python工具的使用）的练习，接纳了与o1相同的强化学习方法。只需一个提示，它就会查找分析并整合数百个在线资源，生成一份达到研究分析师水平的综合报告。

参考博客：
OpenAI紧急加播：ChatGPT上新深度搜索，持续思索30分钟输出1万字，刷榜“人类最后的考试”
刚刚，OpenAI 再出招反击 DeepSeek！「深度研究」在这个终极测试逾越 R1
（4）Mistral Small 3（Mistral AI轻量化大模子）

2025.02.03 Mistral AI开源，主打轻量化、低延伸、以Agent为中心的24B新模子Mistral Small 3，Mistral Small 3 并未使用强化学习（RL）或合成数据举行练习，因此它比像 Deepseek R1（一个出色且互补的开源技能）这样的模子更早地处于模子生产流程中。
　　Mistral Small 3 在70B以下的“小型”大型语言模子类别中树立了新的标杆，在性能上能够与更大的模子（例如 Llama 3.3 70B 或 Qwen 32B）竞争，并且是像 GPT4o-mini 这样的封闭专有模子的优秀开源替代品。Mistral Small 3 的性能与 Llama 3.3 70B 指令模子相当，但在相同的硬件上速度要快 3 倍以上。
　　Mistral Small可以本地部署，经过量化后，它可以完美适配单个RTX 4090或32GB内存的MacBook，是一个极其“知识麋集型”的模子。它非常适合以了局景：快速响应的对话Agent、低延伸功能调用、特定范畴微调。
关键特性：

多语言支持：支持多种语言，包罗英语、法语、德语、西班牙语、意大利语、中文、日语、韩语、葡萄牙语、荷兰语和波兰语。
以Agent为中心：提供顶级的Agent能力，支持原生功能调用和JSON输出。
高级推理：具有最先辈的对话和推理能力。
Apache 2.0许可：开放许可，允许用于贸易和非贸易目标的使用和修改。
上下文窗口：32k上下文窗口。
系统提示：对系统提示有很强的遵循和支持。
分词器：使用Tekken分词器，词汇量为131k。

参考博客：主打低延伸Agent，Mistral Small 3开源，24B媲美70B！
开源地点：
https://mistral.ai/news/mistral-small-3/
https://hf-mirror.com/mistralai/Mistral-Small-24B-Instruct-2501
（5）Qwen2.5-Max（阿里巴巴大模子）

2025.02.04 2月4日凌晨，Chatbot Arena公布了最新的大模子盲测榜单，Qwen2.5-Max轻松办逾越了行业翘楚DeepSeek V3、o1-mini和Claude-3.5-Sonnet等知名模子，以1332分位列全球第七名，也黑白推理类的中国大模子冠军。同时，Qwen2.5-Max在数学和编程等单项能力上排名第一，在硬提示（Hard prompts）方面排名第二。这一成绩不但标志着中国大模子在国际舞台上的崛起，也展现了阿里云在人工智能范畴的强大实力。

由于使用了大规模MoE架构以及凌驾20万亿token的预练习数据，可以说Qwen2.5-Max在技能上真正做到了精雕细琢，也让Qwen2.5-Max基准在测试中表现极为惊艳！
　　我们都知道，Chatbot Arena LLM Leaderboard是业界公认的最公正、最权威榜单之一，它已经成为全球顶级大模子的紧张竞技场，其拥有一套独特且先辈的评测体系，确保每一个参与的大模子都能得到公正、科学的评估，让全球用户都能清楚了解各模子的实力与特点。
　　在此次榜单更新中，Qwen2.5-Max的表现尤为突出。它不但在综合排名上位列全球第七，还在数学和编程等单项能力上排名第一，在硬提示（Hard prompts）方面排名第二。
　　在现实评测中，Qwen2.5-Max多个基准测试中逾越当红炸子鸡DeepSeek V3，展现出极强的综合性能，如在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等测试中，Qwen2.5-Max比肩Claude-3.5-Sonnet，并几乎全面逾越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。
　　更令人惊叹的是，Qwen2.5-Max在多模态能力上也非常惊艳，例如在联网搜索功能中，它每一句输出都有清楚的泉源标注，轻松畅快。用户可以仅用一句话，就能通过Qwen2.5-Max完成旋转球体等各种可视化创作。不但如此，这款模子甚至能帮用户迅速开发出小游戏，比如丢掉手动操纵，秒速玩转扫雷游戏。

参考博客：
杭州逾越杭州：阿里Qwen2.5-Max反超DeepSeek-V3！网友：中国AI正在快速缩小差距
赶超DeepSeek V3，阿里Qwen2.5-Max成非推理类中国大模子冠军
Github地点：https://github.com/QwenLM/Qwen2.5
（6）s1-32B（李飞飞团队大模子）

2025.02.06 AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能实验室等携手推出的最新佳构：s1。在数学和编程能力的评测集上，s1的表现比肩DeepSeek-R1和o1。
　　而训一个这样性能的模子，团队仅仅用了16个英伟达H100，练习耗时26分钟。
据TechCrunch，这个练习过程斲丧了不到50美元的云计算本钱，约合人民币364.61元；而s1模子作者之一表现，练习s1所需的计算资源，在当下约花20美元（约145.844元）就能租到。
　　s1团队表现，法门只有一个：蒸馏。
　　简单来说，团队以阿里通义团队的Qwen2.5- 32B-Instruct作为底子模子，通过蒸馏谷歌DeepMind的推理模子Gemini 2.0 Flash Thinking实验版，最终得到了s1模子。
　　为了练习s1，研究团队创建了一个包罗1000个问题（经心挑选那种）的数据集，且每个问题都附有答案，以及Gemini 2.0 Flash Thinking实验版的思索过程。
　　目前，项目论文《s1: Simple test-time scaling》已经挂上arXiv，模子s1也已在GitHub上开源，研究团队提供了练习它的数据和代码。
　　
参考博客：
本钱不到150元！李飞飞等26分钟训出个推理模子，媲美o1和R1，法门：用蒸馏
仅1k样本逾越o1，媲美DeepSeek-R1蒸馏模子，李飞飞新作s1发布
论文地点：https://arxiv.org/pdf/2501.19393
GitHub地点：https://github.com/simplescaling/s1
（7）Wan2.1（阿里巴巴视频生成大模子通义万相）

2025.02.25 阿里巴巴开源 Wan2.1，在处置惩罚复杂运动、还原真实物理规律、提拔影视质感以及优化指令遵循方面具有显著的优势，无论是创作者、开发者还是企业用户，都可以根据自己的需求选择符合的模子和功能，轻松实现高质量的视频生成。
同时，万相还支持业内领先的中英文文字殊效生成，满足广告、短视频等范畴的创意需求。
在权威评测集VBench中，万相以总分86.22%的成绩登上榜首位置，大幅领先了Sora、Minimax、Luma、Gen3、Pika等国内外视频生成模子。
基于主流的DiT和线性噪声轨迹Flow Matching范式，万相大模子通过一系列技能创新实现了生成能力的重大进步。包罗自研高效的3D因果VAE、可扩展的预练习策略、大规模数据链路构建以及主动化评估指标，这些创新共同提拔了模子的最终性能表现。

参考博客：https://mp.weixin.qq.com/s/B0iiqSWr2MoSYbB0vgjRzQ
Github堆栈：https://github.com/Wan-Video/Wan2.1
（8）Claude 3.7 Sonnet

2025.02.27 公认的编程开发能力第一！Claude 3.7 Sonnet刚刚登顶WebDev竞技场榜首。

参考博客：Claude 3.7登顶编程竞技场，大幅领先100分！最新布料模仿实测再惊艳网友
（9）GPT-4.5（OpenAI）

2025.02.27 OpenAI 正式发布了其最大、最强的聊天模子 GPT‑4.5 研究预览版本。奥特曼发推称，GPT‑4.5 让他第一次感觉像在与一个有思想的人在交谈，可以从模子那里得到真正好的发起。
　　OpenAI 表现，GPT-4.5 在扩展预练习和后练习方面向前迈出了一步。通过扩展无监督学习，GPT-4.5 提高了识别模式、建立接洽和产生创造性见解的能力，而无需推理。这意味着，GPT-4.5 从一开始就不是一个推理模子。
　　OpenAI 的早期测试表明，与 GPT-4.5 的交互感觉更自然。它的知识库更广泛，更能遵循用户意图，而且「情商」更高，使得在提高写作、编程和办理现实问题等任务中非常有用。同时，GPT-4.5 还镌汰了幻觉出现。
　　Cognition 联合创始人兼 CEO Scott Wu 分享了使用 GPT-4.5 的体验，表现非常棒。在他们的智能体编码基准测试中，GPT-4.5 相较于 o1 和 4o 实现大幅改进。同时发现一个风趣的数据点：虽然 GPT-4.5 和 Claude 3.7 Sonnet 在整体基准测试中得分相似，但他们发现 GPT-4.5 在涉及架构和跨系统交互的任务上峰值更大，而 Claude 3.7 Sonnet 在原始编码和代码编辑上峰值更大。

　　从今天开始，ChatGPT Pro 用户可以在网页版、手机版和桌面版使用 GPT-4.5。下周将向 Plus 和 Team 用户开放，再下周向企业和 Edu 用户开放。
　　现在，GPT-4.5 只支持搜索、上传文件和图片和画布功能，还不支持语音模式、视频和屏幕共享等多模态功能。OpenAI 表现，未来会持续更新，让产品变得更容易使用。

在 SimpleQA（评估模子的究竟性答复能力）数据集上举行了测试，其中 GPT-4.5 的正确率最高，逾越了前代 GPT-4o、o1 和 o3-mini，展现了 GPT-4.5 拥有惊人的世界知识。
GPT-4.5 能够更好地明白人类的意思，并以更细致入微的「情商」来解读玄妙的暗示或隐含的期望。此外，GPT-4.5 还表现出了更强的审美直觉和创造力，它善于帮助写作和设计。
在 GPQA（科学）、AIME’24（数学）、SWE-Bench Verfied（编码）等数据集上，GPT-4.5 全面领先于 GPT-4o，但仍然逊色于 o3-mini，尤其是数学和真实编程能力。

参考博客：
刚刚，GPT-4.5问世！OpenAI迄今最大、最贵模子，API价格飞涨30倍，不拼推理拼情商
刚刚，GPT-4.5发布！OpenAI最大最贵模子，主打情商高，奥特曼带娃缺席发布会
（10）Hunyuan Turbo S（腾讯快思索模子）

2025.02.27 腾讯混元新一代快思索模子 Turbo S 正式发布。区别于 Deepseek R1、混元T1等须要“想一下再答复”的慢思索模子，混元 Turbo S 能够实现“秒回”，更快速输出答案，吐字速度提拔一倍，首字时延低落44%。
通过长短思维链融合，混元 Turbo S 在保持文科类问题快思索体验的同时，基于自研混元 T1 慢思索模子合成的长思维链数据，显著改进了理科推理能力，实现模子整体性能明显提拔。
　　在业界通用的多个公开 Benchmark 上，混元 Turbo S 在知识、数学、推理等多个范畴，展现出对标 DeepSeek V3、GPT 4o、Claude等一系列业界领先模子的结果表现。
　　架构方面，创新接纳 Hybrid-Mamba-Transformer 融合模式，混元Turbo S有用低落了传统 Transformer 结构的计算复杂度，镌汰了KV-Cache缓存占用，实现练习和推理本钱的降落。
　　新的融合模式突破了传统纯 Transformer 结构大模子面临的长文练习和推理本钱高的难题。一方面，发挥了 Mamba 高效处置惩罚长序列的能力；另一方面，也生存 Transformer 擅于捕获复杂上下文的优势，最终构建了显存与计算效率双优的混淆架构。
这也是工业界首次乐成将 Mamba 架构无损地应用在超大型MoE模子上。

在知识、数理、创作等方面，混元 Turbo S 也有不错表现。
参考博客：腾讯混元新一代快思索模子 Turbo S 发布
API免费试用地点：https://cloud.tencent.com/apply/p/i2zophus2x8

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

【AIGC月报】AIGC大模子启元：2025.02（DeepSeek月）

本帖子中包含更多资源

0 个回复

快速回复

楼主热帖

标签云

浏览过的版块