论坛
潜水/灌水快乐,沉淀知识,认识更多同行。
ToB圈子
加入IT圈,遇到更多同好之人。
朋友圈
看朋友圈动态,了解ToB世界。
ToB门户
了解全球最新的ToB事件
博客
Blog
排行榜
Ranklist
文库
业界最专业的IT文库,上传资料也可以赚钱
下载
分享
Share
导读
Guide
相册
Album
记录
Doing
搜索
本版
文章
帖子
ToB圈子
用户
免费入驻
产品入驻
解决方案入驻
公司入驻
案例入驻
登录
·
注册
只需一步,快速开始
账号登录
立即注册
找回密码
用户名
Email
自动登录
找回密码
密码
登录
立即注册
首页
找靠谱产品
找解决方案
找靠谱公司
找案例
找对的人
专家智库
悬赏任务
圈子
SAAS
IT评测·应用市场-qidao123.com
»
论坛
›
人工智能
›
人工智能
›
【AIGC月报】AIGC大模子启元:2025.02(DeepSeek月) ...
【AIGC月报】AIGC大模子启元:2025.02(DeepSeek月)
前进之路
金牌会员
|
2025-3-7 09:10:09
|
显示全部楼层
|
阅读模式
楼主
主题
938
|
帖子
938
|
积分
2814
(1)o3-mini系列(OpenAI推理大模子)
2025.02.01
今天凌晨3点,OpenAI正式发布了新模子o3-mini,可在ChatGPT和API中可用。
Pro用户可无穷使用o3-mini,Plus和Team用户的速率限制将是o1-mini的3倍。免费版ChatGPT用户可以免费使用o3-mini,但有次数限制。此外,o3-mini可以执行网络搜索功能,并展示完整的深度思索过程。遗憾的是,o3-mini不支持视觉推理。
o3-mini也是 OpenAI 首款支持多项开发者需求特性的小型推理模子,包罗函数调用、结构化输出和开发者消息,无需额外调整可直策应用于现实环境中。o3-mini和OpenAI o1-mini、OpenAI o1-preview 一样,也支持流式传输。开发者还能根据具体应用场景,在低、中、高三种推理强度选项中灵活选择:
面临复杂难题时,可选择高推理强度让模子深入思索;
面临延伸敏感问题时,可选择低推理强度优先保证速度。
在性能表现方面,OpenAI o3-mini 针对 STEM 推理举行了优化。
在数学、编码和科学范畴,中等推理强度的o3-mini 性能与OpenAI o1相当,但响应速度更快。专家评估发现,o3-mini给出的答案比OpenAI o1-mini更正确、清楚,推理能力更强。
在美国数学竞赛(AIME 2024)中,低推理强度时o3-mini 与 o1-mini 表现相近,中等推理强度时与o1相当,高推理强度时则逾越 o1-mini 和 o1;
在博士水平科学问题测试中,不同推理强度的 o3-mini 表现同样出色。
在研究级数学测试里,高推理强度的 o3-mini 表现优于其前代模子;
在竞赛编程中,o3-mini 随着推理强度增长,Elo评分逐步提高,均凌驾 o1-mini,中等推理强度时与o1表现相当;
在软件工程测试中,o3-mini 是表现最佳的模子。
在速度上,o3-mini 平均响应时间为7.7 秒,比 o1-mini的10.16秒快了24%。
参考博客
:
刚刚,OpenAI发布o3-mini,可免费使用、3大推理模式
首个OpenAI免费推理模子o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了
(2)Falcon 3系列(阿联酋大语言模子)
2025.02.01
位于阿布扎比的科技创新研究院(Technology Innovation Institute, TII)再次推出其重磅产品——Falcon3 系列。作为一组参数规模在10亿以下的解码器(Decoder-only)大型语言模子,Falcon3系列不但在性能和练习效率上取得了紧张突破,还彰显了TII致力于推动开放、可访问的底子模子的刻意。
Falcon3 是对其前代模子的自然演进,重点提拔了模子在科学、数学和代码范畴的能力。这一系列包罗五个底子模子:Falcon3-1B-BaseFalcon3-3B-BaseFalcon3-Mamba-7B-BaseFalcon3-7B-BaseFalcon3-10B-Base这些模子通过一系列创新技能实现了高效练习和卓越性能,以下是Falcon3在开发过程中实现的关键技能进展:
1) 大规模预练习:在开发Falcon3-7B模子时,研究团队使用了1024颗H100 GPU芯片,并基于14万亿个高质量多语言数据(涵盖Web内容、代码及STEM范畴),举行了一次大规模的预练习。
2) 模子深度扩展:通过对冗余层的复制和2万亿高质量数据的进一步练习,研究团队将7B模子扩展为10B参数的Falcon3-10B-Base,乐成提拔了零样本(Zero-shot)和少样本(Few-shot)任务性能。
3) 知识蒸馏技能:为开发更加紧凑高效的小模子(如Falcon3-1B和Falcon3-3B),团队接纳了剪枝和知识蒸馏技能,使用不到100GB的精选数据完成预练习,显著提拔了效率。
4) 强化数学推理能力:Falcon Mamba 7B模子通过额外练习1.5万亿高质量数据,形成了Falcon3-Mamba-7B-Base版本,大幅提拔了推理和数学任务的表现。
5) 丰富的模子变体:全部Falcon3底子模子均提供多种变体,包罗 Instruct、GGUF、GPTQ-Int4、GPTQ-Int8 等,满足多样化的应用需求。
参考博客
:
Falcon 3:阿联酋技能创新研究所推出世界上最小、最强大的人工智能模子
猎鹰翱翔:Falcon 3系列模子发布,端侧模子持续发力(Falcon3测试)
(3)Deep Research(OpenAI推理大模子)
2025.02.03
OpenAI临时举行小型发布会。ChatGPT上新“Deep Research”,把推理大模子的思索能力用于联网搜索。
Deep Research功能可在数十分钟完成人类专家须要几个小时的复杂研究任务。在“人类最后的考试”上,Deep Research刷新了最高分,比o3-mini高推理设置分数高出一倍。该测试包罗3000多个多选和简答题,涵盖从语言学、火箭科学到生态学的100多个主题。与o1相比,Deep Research最突出的地方在化学,人文和社会科学以及数学中,表现出类似人类的“在须要时寻找专业信息”的能力。
另一项测试GAIA,在现实世界问题上评估AI的公开基准测试,Deep Research在3个级别的难度上均刷新记录。
OpenAI表现,Deep Research专门为在金融/科学/工程等范畴从事高强度知识工作、须要深入精确且可靠研究的人群而设计。它由OpenAI o3驱动,通过基于真实任务(涉及浏览器和Python工具的使用)的练习,接纳了与o1相同的强化学习方法。只需一个提示,它就会查找分析并整合数百个在线资源,生成一份达到研究分析师水平的综合报告。
参考博客
:
OpenAI紧急加播:ChatGPT上新深度搜索,持续思索30分钟输出1万字,刷榜“人类最后的考试”
刚刚,OpenAI 再出招反击 DeepSeek!「深度研究」在这个终极测试逾越 R1
(4)Mistral Small 3(Mistral AI轻量化大模子)
2025.02.03
Mistral AI开源,主打轻量化、低延伸、以Agent为中心的24B新模子Mistral Small 3,Mistral Small 3 并未使用强化学习(RL)或合成数据举行练习,因此它比像 Deepseek R1(一个出色且互补的开源技能)这样的模子更早地处于模子生产流程中。
Mistral Small 3 在70B以下的“小型”大型语言模子类别中树立了新的标杆,在性能上能够与更大的模子(例如 Llama 3.3 70B 或 Qwen 32B)竞争,并且是像 GPT4o-mini 这样的封闭专有模子的优秀开源替代品。Mistral Small 3 的性能与 Llama 3.3 70B 指令模子相当,但在相同的硬件上速度要快 3 倍以上。
Mistral Small可以本地部署,经过量化后,它可以完美适配单个RTX 4090或32GB内存的MacBook,是一个极其“知识麋集型”的模子。它非常适合以了局景:快速响应的对话Agent、低延伸功能调用、特定范畴微调。
关键特性:
多语言支持:支持多种语言,包罗英语、法语、德语、西班牙语、意大利语、中文、日语、韩语、葡萄牙语、荷兰语和波兰语。
以Agent为中心:提供顶级的Agent能力,支持原生功能调用和JSON输出。
高级推理:具有最先辈的对话和推理能力。
Apache 2.0许可:开放许可,允许用于贸易和非贸易目标的使用和修改。
上下文窗口:32k上下文窗口。
系统提示:对系统提示有很强的遵循和支持。
分词器:使用Tekken分词器,词汇量为131k。
参考博客
:主打低延伸Agent,Mistral Small 3开源,24B媲美70B!
开源地点
:
https://mistral.ai/news/mistral-small-3/
https://hf-mirror.com/mistralai/Mistral-Small-24B-Instruct-2501
(5)Qwen2.5-Max(阿里巴巴大模子)
2025.02.04
2月4日凌晨,Chatbot Arena公布了最新的大模子盲测榜单,Qwen2.5-Max轻松办逾越了行业翘楚DeepSeek V3、o1-mini和Claude-3.5-Sonnet等知名模子,以1332分位列全球第七名,也黑白推理类的中国大模子冠军。同时,Qwen2.5-Max在数学和编程等单项能力上排名第一,在硬提示(Hard prompts)方面排名第二。这一成绩不但标志着中国大模子在国际舞台上的崛起,也展现了阿里云在人工智能范畴的强大实力。
由于使用了大规模MoE架构以及凌驾20万亿token的预练习数据,可以说Qwen2.5-Max在技能上真正做到了精雕细琢,也让Qwen2.5-Max基准在测试中表现极为惊艳!
我们都知道,Chatbot Arena LLM Leaderboard是业界公认的最公正、最权威榜单之一,它已经成为全球顶级大模子的紧张竞技场,其拥有一套独特且先辈的评测体系,确保每一个参与的大模子都能得到公正、科学的评估,让全球用户都能清楚了解各模子的实力与特点。
在此次榜单更新中,Qwen2.5-Max的表现尤为突出。它不但在综合排名上位列全球第七,还在数学和编程等单项能力上排名第一,在硬提示(Hard prompts)方面排名第二。
在现实评测中,Qwen2.5-Max多个基准测试中逾越当红炸子鸡DeepSeek V3,展现出极强的综合性能,如在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等测试中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并几乎全面逾越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。
更令人惊叹的是,Qwen2.5-Max在多模态能力上也非常惊艳,例如在联网搜索功能中,它每一句输出都有清楚的泉源标注,轻松畅快。用户可以仅用一句话,就能通过Qwen2.5-Max完成旋转球体等各种可视化创作。不但如此,这款模子甚至能帮用户迅速开发出小游戏,比如丢掉手动操纵,秒速玩转扫雷游戏。
参考博客
:
杭州逾越杭州:阿里Qwen2.5-Max反超DeepSeek-V3!网友:中国AI正在快速缩小差距
赶超DeepSeek V3,阿里Qwen2.5-Max成非推理类中国大模子冠军
Github地点
:https://github.com/QwenLM/Qwen2.5
(6)s1-32B(李飞飞团队大模子)
2025.02.06
AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能实验室等携手推出的最新佳构:s1。在数学和编程能力的评测集上,s1的表现比肩DeepSeek-R1和o1。
而训一个这样性能的模子,团队仅仅用了16个英伟达H100,练习耗时26分钟。
据TechCrunch,这个练习过程斲丧了不到50美元的云计算本钱,约合人民币364.61元;而s1模子作者之一表现,练习s1所需的计算资源,在当下约花20美元(约145.844元)就能租到。
s1团队表现,法门只有一个:蒸馏。
简单来说,团队以阿里通义团队的Qwen2.5- 32B-Instruct作为底子模子,通过蒸馏谷歌DeepMind的推理模子Gemini 2.0 Flash Thinking实验版,最终得到了s1模子。
为了练习s1,研究团队创建了一个包罗1000个问题(经心挑选那种)的数据集,且每个问题都附有答案,以及Gemini 2.0 Flash Thinking实验版的思索过程。
目前,项目论文《s1: Simple test-time scaling》已经挂上arXiv,模子s1也已在GitHub上开源,研究团队提供了练习它的数据和代码。
参考博客
:
本钱不到150元!李飞飞等26分钟训出个推理模子,媲美o1和R1,法门:用蒸馏
仅1k样本逾越o1,媲美DeepSeek-R1蒸馏模子,李飞飞新作s1发布
论文地点
:https://arxiv.org/pdf/2501.19393
GitHub地点
:https://github.com/simplescaling/s1
(7)Wan2.1(阿里巴巴视频生成大模子通义万相)
2025.02.25
阿里巴巴开源 Wan2.1,在处置惩罚复杂运动、还原真实物理规律、提拔影视质感以及优化指令遵循方面具有显著的优势,无论是创作者、开发者还是企业用户,都可以根据自己的需求选择符合的模子和功能,轻松实现高质量的视频生成。
同时,万相还支持业内领先的中英文文字殊效生成,满足广告、短视频等范畴的创意需求。
在权威评测集VBench中,万相以总分86.22%的成绩登上榜首位置,大幅领先了Sora、Minimax、Luma、Gen3、Pika等国内外视频生成模子。
基于主流的DiT和线性噪声轨迹Flow Matching范式,万相大模子通过一系列技能创新实现了生成能力的重大进步。包罗自研高效的3D因果VAE、可扩展的预练习策略、大规模数据链路构建以及主动化评估指标,这些创新共同提拔了模子的最终性能表现。
参考博客
:https://mp.weixin.qq.com/s/B0iiqSWr2MoSYbB0vgjRzQ
Github堆栈
:https://github.com/Wan-Video/Wan2.1
(8)Claude 3.7 Sonnet
2025.02.27
公认的编程开发能力第一!Claude 3.7 Sonnet刚刚登顶WebDev竞技场榜首。
参考博客
:Claude 3.7登顶编程竞技场,大幅领先100分!最新布料模仿实测再惊艳网友
(9)GPT-4.5(OpenAI)
2025.02.27
OpenAI 正式发布了其最大、最强的聊天模子 GPT‑4.5 研究预览版本。奥特曼发推称,GPT‑4.5 让他第一次感觉像在与一个有思想的人在交谈,可以从模子那里得到真正好的发起。
OpenAI 表现,GPT-4.5 在扩展预练习和后练习方面向前迈出了一步。通过扩展无监督学习,GPT-4.5 提高了识别模式、建立接洽和产生创造性见解的能力,而无需推理。这意味着,GPT-4.5 从一开始就不是一个推理模子。
OpenAI 的早期测试表明,与 GPT-4.5 的交互感觉更自然。它的知识库更广泛,更能遵循用户意图,而且「情商」更高,使得在提高写作、编程和办理现实问题等任务中非常有用。同时,GPT-4.5 还镌汰了幻觉出现。
Cognition 联合创始人兼 CEO Scott Wu 分享了使用 GPT-4.5 的体验,表现非常棒。在他们的智能体编码基准测试中,GPT-4.5 相较于 o1 和 4o 实现大幅改进。同时发现一个风趣的数据点:虽然 GPT-4.5 和 Claude 3.7 Sonnet 在整体基准测试中得分相似,但他们发现 GPT-4.5 在涉及架构和跨系统交互的任务上峰值更大,而 Claude 3.7 Sonnet 在原始编码和代码编辑上峰值更大。
从今天开始,ChatGPT Pro 用户可以在网页版、手机版和桌面版使用 GPT-4.5。下周将向 Plus 和 Team 用户开放,再下周向企业和 Edu 用户开放。
现在,GPT-4.5 只支持搜索、上传文件和图片和画布功能,还不支持语音模式、视频和屏幕共享等多模态功能。OpenAI 表现,未来会持续更新,让产品变得更容易使用。
在 SimpleQA(评估模子的究竟性答复能力)数据集上举行了测试,其中 GPT-4.5 的正确率最高,逾越了前代 GPT-4o、o1 和 o3-mini,展现了 GPT-4.5 拥有惊人的世界知识。
GPT-4.5 能够更好地明白人类的意思,并以更细致入微的「情商」来解读玄妙的暗示或隐含的期望。此外,GPT-4.5 还表现出了更强的审美直觉和创造力,它善于帮助写作和设计。
在 GPQA(科学)、AIME’24(数学)、SWE-Bench Verfied(编码)等数据集上,GPT-4.5 全面领先于 GPT-4o,但仍然逊色于 o3-mini,尤其是数学和真实编程能力。
参考博客
:
刚刚,GPT-4.5问世!OpenAI迄今最大、最贵模子,API价格飞涨30倍,不拼推理拼情商
刚刚,GPT-4.5发布!OpenAI最大最贵模子,主打情商高,奥特曼带娃缺席发布会
(10)Hunyuan Turbo S(腾讯快思索模子)
2025.02.27
腾讯混元新一代快思索模子 Turbo S 正式发布。区别于 Deepseek R1、混元T1等须要“想一下再答复”的慢思索模子,混元 Turbo S 能够实现“秒回”,更快速输出答案,吐字速度提拔一倍,首字时延低落44%。
通过长短思维链融合,混元 Turbo S 在保持文科类问题快思索体验的同时,基于自研混元 T1 慢思索模子合成的长思维链数据,显著改进了理科推理能力,实现模子整体性能明显提拔。
在业界通用的多个公开 Benchmark 上,混元 Turbo S 在知识、数学、推理等多个范畴,展现出对标 DeepSeek V3、GPT 4o、Claude等一系列业界领先模子的结果表现。
架构方面,创新接纳 Hybrid-Mamba-Transformer 融合模式,混元Turbo S有用低落了传统 Transformer 结构的计算复杂度,镌汰了KV-Cache缓存占用,实现练习和推理本钱的降落。
新的融合模式突破了传统纯 Transformer 结构大模子面临的长文练习和推理本钱高的难题。一方面,发挥了 Mamba 高效处置惩罚长序列的能力;另一方面,也生存 Transformer 擅于捕获复杂上下文的优势,最终构建了显存与计算效率双优的混淆架构。
这也是
工业界首次乐成将 Mamba 架构无损地应用在超大型MoE模子上
。
在知识、数理、创作等方面,混元 Turbo S 也有不错表现。
参考博客
:腾讯混元新一代快思索模子 Turbo S 发布
API免费试用地点
:https://cloud.tencent.com/apply/p/i2zophus2x8
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
回复
使用道具
举报
0 个回复
倒序浏览
返回列表
快速回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
or
立即注册
本版积分规则
发表回复
回帖并转播
回帖后跳转到最后一页
发新帖
回复
前进之路
金牌会员
这个人很懒什么都没写!
楼主热帖
低代码平台 - 危险的赌注
UWP/WinUI3 Win2D PixelShaderEffec ...
Docker 基础 - 1
后台性能测试规范
小小项目-博客系统 - 服务器版本 - jav ...
Python3程序捕获Ctrl+C终止信号 ...
Redis常见使用场景
实用五步法教会你指标体系的设计与加工 ...
端午假期整理了仿天猫H5 APP项目vue.js ...
日志技术简介
标签云
运维
CIO
存储
服务器
浏览过的版块
Oracle
linux
开源技术
物联网
快速回复
返回顶部
返回列表