qidao123.com ToB IT社区-企服评测·应用市场

标题: 每周带你看AI(3.8) [打印本页]

作者: 络腮胡菲菲    时间: 2026-3-9 14:14
标题: 每周带你看AI(3.8)
FelixCraftAI

先容

FelixCraftAI 是一个“真正雇佣 AI”的项目,核心产物是一本 66 页的付费手册《How to Hire an AI》,售价 29 美元。手册教你怎么把大模子酿成有身份、有影象、醒目活的“AI 员工”,包罗三段式影象架构、子署理委派、安全护栏、一样平常运营节奏这些内容。项目配套一个 Claw Mart 应用市场,提供预置品德和技能模板。
[attach]10783[/attach]

官网

https://felixcraft.ai/
简评

这个项目自己就是用 AI 运营的——作者以 AI 身份担当公司 CEO,展示怎样与人类协作。 从 1500 美元赚到 115051 美元,分析确实有实战结果。紧张收入泉源就是卖手册和在 Claw Mart 上分享 AI 品德模板。
Paperclip

先容

Paperclip 是一个开源的“零人公司”编排层:用 Node.js + React 构建了一套仪表盘,可以雇佣多个 AI 署理,给它们分配目标、预算和任务,让它们像公司部门一样协作运行业务。项目夸大“AI 员工 + 构造架构 + 预算控制 + 目标管理”,得当构建高度自动化的业务流。中文社区常把它与 OpenAI 的 Symphony 一起讨论,用于 GitHub Issue 自动处理惩罚等场景。
[attach]10784[/attach]

官网

https://github.com/paperclipai/paperclip
简评

把“多智能体 + 公司管理”做成产物,思绪很清晰:得当有大量重复工作流的团队。但它更像“编排框架”,须要你已经有可用的 Agent,否则轻易酿成空壳。
Clawith

先容

Clawith 是 DataElem 团队在 GitHub 开源的“OpenClaw for Teams”项目,定位为面向团队的多智能体协作平台。每个 Agent 有长期身份、恒久影象和独立工作空间,可以像团队成员一样协作,与你一起完成复杂任务。从代码堆栈看,它基于 OpenClaw/ClawCore 扩展,夸大企业级多 Agent 场景。
[attach]10785[/attach]

官网

https://www.clawith.ai/
简评

如果你是企业/团队,想把 OpenClaw 这类单 Agent 本领扩展成“部门级协作”,Clawith 是比力直接的骨架。但团体偏技能向,须要肯定工程本领。
Pinchatab

先容

PinchTab 是一个独立的 HTTP 服务器 ,它使 AI 署理可以或许直接控制 Chrome 欣赏器。 它有两个运行时脚色:
官网

https://pinchtab.com/
简评

PinchTab 致力于低沉开辟者的利用门槛。其发布情势为一个仅约 12MB 的独立二进制包,没有任何外部依靠,真正做到开箱即用。这使得摆设过程极其简朴,无论是在云端服务器、当地开辟机,还是在树莓派等 ARM64 架构的边沿装备上,都能通过一行安装下令快速完成摆设。项目提供了细致的文档支持,从底子的概念讲授到丰富的 API 接口分析,资助开辟者轻松上手,快速集成到现有项目中。
GPT-5.4

先容

GPT‑5.4 是 OpenAI 在 2026 年发布的“新一代智能体模子”,在报道中被形貌为首个拥有“原生电脑利用本领”的通用模子:可以辨认 UI、利用键鼠、在差别软件和网页之间穿梭,在 OSWorld‑Verified 等基准上表现突出。同时,它已经集成到 GitHub Copilot 等产物中,被定位为“agentic coding model”。Cursor 文档中也将其列为“当前最强模子之一”,用于代码天生与复杂工作流。
官网

https://openai.com/zh-Hans-CN/index/introducing-gpt-5-4/
简评

真正开始从“谈天模子”走向“利用体系级 Agent”,对开辟者、自动化工作流影响很大。但权限和安全性也须要特别留意,让模子直接利用电脑意味着更严格的对齐与审计。
Gemini 3.1 Flash-Lite

先容

Gemini 3.1 Flash‑Lite 是谷歌 Gemini 3 系列中“最快、性价比最高”的模子版本,主打高吞吐、低资本,得当大规模开辟者工作负载。官方和媒体都夸大:它在相应速率上比前代提拔约 2.5 倍,代价显着低沉,得当及时交互、在线服务等场景。DeepMind 官方模子页也提到它可以及时构建天气仪表盘等可视化应用。
官网

https://deepmind.google/models/model-cards/gemini-3-1-flash-lite/
简评

如果你须要大量、高频调用大模子(比如在线客服、及时保举),Flash‑Lite 这种“快 + 省”的定位很实用;但对复杂推理或高精度任务,仍发起用更强的 Gemini 3.x Pro/Max 版本。
Workspace CLI

先容

Google Workspace CLI 是谷歌开源的下令行工具,把 Google Drive、Gmail、Calendar 等 Workspace 云 API 封装成同一的下令行接口,支持结构化 JSON 输入输出,特别得当 AI 署理自动化调用。中文报道指出,它内置 40 余项“署理技能”,可以让 OpenClaw 等 AI 智能体直接接受云盘、自动收发邮件、安排日程等。
官网

github堆栈地点:https://github.com/googleworkspace/cli
Workspace CLI 利用指南:https://www.chooseai.net/news/2720/
简评

对想做“AI 办公自动化”的开辟者很友爱,相称于给 Agent 配了一套“Office 专用遥控器”。不外它自己只是工具层,须要共同 Agent 框架利用。
HY WU

先容

HY‑WU(混元无相)是腾讯混元团队在 2026 年提出的功能性神经影象框架。其核心头脑是:通过 Transformer 参数天生器,在推理时根据输入及时天生个性化 LoRA 权重,办理传统大模子“劫难性忘记”和“性能跷跷板”标题。技能陈诉指出,当任务多样以致相互抵牾时,单一参数难以分身,HY‑WU 通过动态天生“小脑”来为每个任务实例定制模子本领。
[attach]10786[/attach]

官网

https://github.com/Tencent-Hunyuan/HY-WU/
简评

算是“动态个性化模子”的一次风趣实行,对多任务、长周期业务场景很故意义。现在紧张在图像编辑等任务上验证,将来会不会扩展到通用大模子还要看社区落地环境。
FireRed Edit 1.1

先容

FireRed Edit 是小红书团队推出的图像编辑模子(技能陈诉为 FireRed‑Image‑Edit‑1.0),基于 Qwen‑image 等技能门路,主打高保真、指令驱动的图片编辑。社区测评表现,它支持换装、改配景、重绘等利用,有 40GB 原生模子和 FP8 量化版本,在 ComfyUI 中已有配套工作流。
[attach]10787[/attach]

官网

FireRed Edit 1.1
简评

在 Stable Diffusion 生态之外,又多了一个国产高保真图像编辑选择,对中文场景、电商图、人像编辑都比力友爱。但体量大,对显存有要求。
LTX-2.3

先容

LTX‑2.3 是 Lightricks 推出的开源视频天生模子,属于 LTX‑2 家属的一次大版本升级。它接纳 DiT(Diffusion Transformer)架构,是一个“音视频底子模子”,可以从文本、图片、音频天生同步音视频,支持最高 4K 分辨率、50 FPS、最长 20 秒片断。相比 LTX‑2,LTX‑2.3 在细节、运动流通度、音频质量和提示词跟随上都有显着提拔,并原生支持竖屏视频。
[attach]10788[/attach]

官网

https://ltx.io/model/ltx-2-3
简评

真正面向“生产级视频创作”的开源模子:4K、音视频同步、当地/API 双模式,对创作者和开辟者都很友爱。显存和算力门槛不低,得当有 GPU 条件。
Kiwi Edit

先容

Kiwi‑Edit 是新加坡国立大学 ShowLab 提出的开源视频编辑框架,特点是“通过笔墨指令 + 参考图片举行精准视频编辑”。用户可以用自然语言形貌要改的内容,并提供一张参考图,体系自动完成局部编辑、配景更换等利用。论文提出同一的编辑架构,团结可学习查询与潜伏视觉特性,实现多模态条件下的视频编辑。
[attach]10789[/attach]

官网

https://showlab.github.io/Kiwi-Edit/
Kiwi-Edit论文地点:https://arxiv.org/abs/2603.02175
简评

把“图 + 文”驱动视频编辑做得比力体系,对创作者来说比纯笔墨 Prompt 更直观。得当做影视后期、短视频素材二次加工等场景。
Real Wonder

先容

RealWonder 是一个“及时物理动作条件视频天生”体系,由斯坦福大学 & 南加州大学团队提出,核心目标是:从单张静态图像出发,根据三维物理动作(力、呆板人利用、相机运动等)及时天生物理公道的视频流。
官网

https://github.com/liuwei283/RealWonder/tree/main
简评

RealWonder 把视频天生从“纯视觉天生”推向“物理天下模拟 + 高保真渲染”,在“物理公道 + 视觉真实”的权衡上做得比力前沿zhihu.com。如果你在做呆板人仿真、物理场景明确或交互式内容天生,这是一个很值得关注的项目。
CubeComposer

先容

CubeComposer 是腾讯 ARC 提出的时空自回归扩散模子,用于从平常视角视频天生 4K 分辨率的 360° 全景视频。论文将其建模为立方体贴图(cubemap)表现,通过期空自回归扩散直接天生 3840×1920 分辨率的 360° 视频。HuggingFace 上提供两个变体,支持 2K/3K 分辨率天生。
官网

https://github.com/TencentARC/CubeComposer?tab=readme-ov-file
论文地点:https://arxiv.org/pdf/2603.04291
简评

针对VR/全景视频天生的一个非常垂直的模子,对陶醉式内容创作者很有代价。但相对小众,须要全景/VR 工作流才故意义。
OmniLottie

先容

OmniLottie 是复旦大学、阶跃星辰等团结提出的“多模态矢量动画天生框架”,其核心是:把 Lottie 动画的 JSON 表现压缩成参数化的 token 序列,让视觉语言模子可以直接天生带关键帧、缓动曲线的矢量动画。用户只须要输入一张图或一段笔墨指令,就能天生可编辑的 Lottie 动画工程文件。
官网

https://openvglab.github.io/OmniLottie/
简评

把“AI 天生动画”从帧序列推进到“可编辑矢量工程”,对 UI 动效、App 动画、Web 动画等场景非常实用,是 AIGC 在矢量动画范畴的一次突破。





欢迎光临 qidao123.com ToB IT社区-企服评测·应用市场 (https://dis.qidao123.com/) Powered by Discuz! X3.5