周一上线 | Claude 救活 TouchBar,硅基圣经面世,Agent 开始点亮开发者桌面

[复制链接]
发表于 昨天 16:47 | 显示全部楼层 |阅读模式
这期的「周一上线」,有点像模子厂商和开发者社区一起加快。
一边,MiniMax M3、Cosmos 3、Gemma 4、MAI 等新模子麋集发布,Agent、Coding、多模态、本地推理和物理天下模子也轮番上场。Codex 再迎新升级,近期还将整合进 ChatGPT。
另一边,社区里的开发者仍然生动:有人用 Claude 让 TouchBar 再就业,有人用 Codex 天生带物理效果的藤蔓小游戏,尚有人把 AI Coding 助手的运行状态同步到桌面氛围灯上。
下面,开始一周回顾:
有点奇怪

「有点奇怪」收录本周 AI / 开发者圈里那些不算大消息,但挺值得看一眼的奇怪事。
代码创作像素风格图片

newt.sh 是一款像素画工具,此中每个像素都是代码,而不是栅格数据。

Claude 让 TouchBar 再就业


@Smirnova 发推称 Apple 的 TouchBar 不应这么早被镌汰。他将其与 Claude 举行联合,让其成为 Claude 的浅易操控台。
Codex 创建具有物理特性的小游戏


Dani Bayanov 用 Codex 创建了具有物理特性的疯狂步伐天生的藤蔓植物,引发网友同等好评。有人发起将其作为面向模子的基准测试。
wiggle-scanner:线上 3D 扫描仪


@moohdev 分享了一个偏创意编码/网页动效/视觉实行的小项目 Wiggle Scanner。它可以或许将扭曲的 3D 模子投影到渲染目的平面上,以模仿扫描仪的效果,看上去就像是一个网页版的 3D 扫描仪
硅基圣经…请续费

@acnekot 模仿《创世纪》(Genesis)的叙事结构,把步伐员与 Codex 的协作过程写成了一个“硅基创世神话”。然后,AI 期间最暴虐的事就来了:你以为自己是创世神,效果发现自己只是套餐用户。

周五发版

「周五发版」是一个步伐梗:一旦版本上线,我们就要开始祈祷齐备准期运行。这个模块寓意,全部模子、产物版本更新,都能大吉大利。
MiniMax M3 发布


MiniMax 发布 M3,定位是面向复杂工程任务的 Agent 与 Coding 模子。
它集成 Coding / Agent 本事、1M 超长上下文和原生多模态本事,可处置惩罚文本、代码、图片和视频输入,官方称其为首个同时具备三项前沿本事的开源权重模子。
在 SWE-Bench Pro、Terminal Bench 2.1、KernelBench Hard 和 MCP Atlas 等评测中表现突出,并展示了长达 12 小时的论文复现和 24 小时的 CUDA 优化等复杂任务本事。
NVIDIA 发布物理 AI 天下模子 Cosmos 3


NVIDIA 发布 Cosmos 3,定位是面向呆板人、自动驾驶和视觉 AI 场景的开放天下根本模子。
它将视觉推理、天下天生和动作猜测整合到同一体系中,可明确场景中的运动、物体交互和物理上下文,并天生更符合物理规律的视频、图像和呆板人动作数据。
Cosmos 3 接纳 Mixture-of-Transformers 双塔架构,一部门负责明确图像、视频和文本中的物理信息,另一部门负责天生未来画面和动作序列,因此不光是视频天生模子,更是面向 Physical AI 的天下模子。
NVIDIA 同步开放 Nano 和 Super 两个版本:Nano 为 16B,偏高效推理;Super 为 64B,偏高质量天生和复杂场景。模子可在 Hugging Face 下载,也可通过 NVIDIA Build 在线试用。
Sapient Intelligence 推出 HRM-Text


Sapient Intelligence 发布 HRM-Text,定位是低资本、高服从的 10 亿参数推理语言模子。
它仅使用 400 亿个结构化 token 训练,就得到了具有竞争力的通用性能
官方称,HRM-Text 训练约需一天,预算约 1000 美元,明显低沉了小模子训练和研究验证门槛。
相比继续堆大模子,HRM-Text 更夸大低资本、可适配和高效推理。
Composer 2.5 已上线 Grok Build


xAI 公布 Composer 2.5 已上线 Grok Build,并向 SuperGrok 和 X Premium+ 用户开放 Beta。Composer 2.5 善于复杂指令跟随和 agentic coding 场景,可在 Grok Build 的 /models 菜单中使用。
Grok Build 近期更新到 0.2.7,新增 /usage、/login、subagents 共享终端,并提拔图像明确本事;同时支持 Plan Mode、Imagine 图像 / 视频天生,以及通过 CLI 构建自动化和 orchestrator。
微软 MAI 一口吻上新 7 款新模子


Microsoft AI 发布 MAI 模子眷属,一次推出 7 款覆盖推理、编程、图像、语音和转录的新模子。
此中,MAI-Thinking-1 是旗舰推理模子,MAI-Code-1-Flash 面向 Agentic Coding 并深度集成 GitHub Copilot 和 VS Code;MAI-Image-2.5、MAI-Voice-2 和 MAI-Transcribe-1.5 则分别覆盖图像天生、语音天生和转录场景。
微软同时推出 Frontier Tuning,可基于企业真实工作流举行强化学习微调,让企业使用自身数据训练专属模子,实现更高性能与更低资本。
Google 发布 Gemma 4 12B


Gemma 4 12B 定位是轻量级开源多模态模子。它支持文本、图像和音频输入,接纳同一的无编码器架构,并进一步低沉了本地运行门槛。官方表现,仅需 16GB VRAM 或同一内存即可完成推理。
对本地摆设用户来说,Gemma 4 12B 已同步支持 Ollama 和 MLX,可在 Mac 等装备上体验多模态本事,得当关注本地推理和开源模子的开发者。
Codex 再升级,近期即将合体 ChatGPT


OpenAI 公布即将把 Codex 整合进 ChatGPT,并发布 Agent Plugins、Annotations 和 Sites 三项新本事。Agent Plugins插件可将工具、技能和工作流打包给 Agent,Annotations 支持对局部内容举行精准修改,Sites 则能将效果直接天生可分享的网站或应用。
开源雷达

周榜速递

周榜重要根据新增 star 数举行排名,下面的单项目解说则方向新晋项目、实用老项目,标星并非单项目解说的唯一指标:

Vibe Light :Vibe Coding 状态灯

Vibe Light 通过 hook 变乱驱动 Yeelight 灯带,把 AI 编程助手的工作状态同步成桌面氛围灯效果。支持多任务状态聚合,多个任务同时运行时也能保持灯光状态稳固。

其效果状态分为:正在思索/运行、期待授权、已完成/空闲、手动重置;对应的灯光颜色为:蓝紫色呼吸流光、洋赤色常亮、白色常亮、清空状态后规复空闲
Ideogram 4:更懂笔墨和排版的开源图像模子

Ideogram 4 是 Ideogram 开源的文生图模子,主打计划、排版和笔墨渲染场景,支持 2K 图像天生、本地摆设和微调。
它的特点是支持结构化 JSON Prompt,可以更正确地控制版式、颜色、文本位置和画面元素,得当天生海报、广告图、包装计划等素材。

对开发者来说,它更像是一个可编程的计划模子,得当用于自动化营销素材、AI 计划工具和创意天生工作流。
Headroom:给 Agent 省上下文

Headroom 是一个 AI Agent 上下文压缩工具,用来压缩工具调用效果、日志日志、文件内容和 RAG 检索内容,淘汰 token 斲丧。

它支持作为署理层、SDK 或 MCP Server 接入 Claude Code、Codex、Cursor、LangChain 等工作流。官方称部门场景下可淘汰 60%~95% 的上下文开销。
这类工具得当长任务 Agent 和 AI Coding 场景,本质是在帮 Agent 更高效地使用上下文窗口。
Scrapling:一个从哀求到爬站全包的爬虫框架

Scrapling 是一个 Python Web Scraping 框架,覆盖单次哀求、动态页面抓取到大规模网站爬取等场景。

它内置自顺应分析、反爬处置惩罚、署理轮换、并发爬取和 MCP 支持。当网站页面结构发生厘革时,还能自动重新定位目的元素,淘汰选择器失效带来的维护资本。
相比必要组合 BeautifulSoup、Playwright、Scrapy 等多个工具的传统方案,Scrapling 更像一个“一站式”爬虫工具箱,得当数据收罗、AI Agent 信息获取和大规模网页抓取场景。
VoxCPM:开源语音模子眷属

VoxCPM 是 OpenBMB 开源的语音根本模子,支持语音天生、语音克隆、多语言语音合成等本事。

项目提供多个尺寸版本,覆盖实时交互到高质量天生等场景,并支持中英文等多种语言。开发者可以基于它构建语音助手、数字人和语音 Agent 应用。
随着语音徐徐成为 AI Agent 的紧张交互方式,这类开源语音模子正在成为 Agent 生态的紧张根本办法。
Hermes WebUI:给 Agent 配一个网页工作台

Hermes WebUI 是 Hermes Agent 的 Web 管理界面,用来在欣赏器中管理和运行 Agent 任务。

它提供对话、任务管理、工具调用和运行状态检察等功能,让 Agent 不再范围于下令行环境,更得当一样平常使用和团队协作。
对于盼望摆设和管理 Agent 的开发者来说,Hermes WebUI 提供了一种更直观的交互方式。
这周有事

NVIDIA 继续押注 AI 工厂,本地 Agent 也要进 PC


GTC Taipei 大会上,黄仁勋分享聚焦在 AI Factory、Agentic AI 和 Physical AI。NVIDIA 正在把新一代数据中心界说成“生产 token 的工厂”,焦点指标也从单卡性能,转向 tokens per second、tokens per watt 和 cost per token。
这背后对应的是 Agent 工作负载的厘革:Agent 会规划任务、调用工具、读写文件和实行长流程,对算力、内存、网络和软件编排提出更高要求。
另一个值得关注的方向是本地 Agent。NVIDIA 这次提到 RTX Spark,也是在把 AI 从云端数据中心继续推向本地 PC,让个人装备负担更低耽误、更贴近工作流的 AI 任务。
微软预报 Surface Laptop Ultra,AI PC 继续升级


微软官方预报 Surface Laptop Ultra,并放出 Surface RTX Spark Dev Box,前者指向更高性能的 Surface 条记本,后者则更偏 AI 开发者装备。
这条消息可以和 NVIDIA 的 AI PC 叙事放在一起看:AI 正在从云端数据中心继续下沉到本地装备。接下来,AI PC 大概不光是跑 Copilot,而是承载本地模子推理、Agent 开发和多模态创作。
AI 3D 公司 VAST 融资近 2 亿美元

由 29 岁游戏爱好者 Simon Song 创建的 AI 3D 公司 VAST,继本年 3 月完成 5000 万美元 A 轮融资后,于近期灵敏完成 A+及 A++两轮融资,合计近 2 亿美元,估值随之突破 10 亿美元,成为中国 AI 范畴最新独角兽。

据相识,近期融资所获资金将用于 AI 3D 与天下模子方向的人才引进、算法迭代、数据积聚与举世扩张。
VAST 建立于 2023 年,旗下 Tripo 系列模子是现在举世使用最广泛的通用 3D 天生大模子之一,平台已聚集凌驾 2000 万创作者,累计天生 3D 资产近 1 亿个,客户覆盖网易、腾讯、索尼、光彩、拓竹等头部企业。
Meta AI 客服被绕过,AI 不能直接拥有高危权限

本周 Meta 被曝曾出现 AI 助手帮助修改 Instagram 绑定邮箱的标题,攻击者有机遇借此继续账号。现在干系毛病已经修复。

Anthropic 机密递交 IPO 草案

Anthropic 公布已向 SEC 机密提交 S-1 注册草案,为大概的 IPO 做准备。具体发行规模和代价还未确定,终极是否上市也取决于 SEC 查察和市场环境。

头部 AI 公司开始从融资比赛进入资源市场查验阶段。随着模子训练、推理和算力投入连续变重,谁能把 Claude 这类模子本事转化成稳固收入,也会成为市场接下来真正关注的标题。
Cloudflare 收购 VoidZero,前端工具链向云平台靠近

Cloudflare 公布收购 VoidZero,将 Vite、Vitest、Rolldown 和 Oxc 等前端工具纳入生态。

前端开发链路正在和云平台进一步整合:从本地构建、测试到摆设,未来大概会更直接接入 Cloudflare Workers 这类边沿平台。
Cloudflare 同时答应向独立 Vite 生态基金投入 100 万美元,并表现干系项目会继续保持 MIT 开源答应。

免责声明:如果侵犯了您的权益,请联系站长及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金.

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

登录后关闭弹窗

登录参与点评抽奖  加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表