qidao123.com ToB IT社区-企服评测·应用市场

标题: 每周带你看AI（3.8） [打印本页]

作者: 络腮胡菲菲 时间: 2026-3-9 14:14
标题: 每周带你看AI（3.8）
FelixCraftAI

先容

FelixCraftAI 是一个“真正雇佣 AI”的项目，核心产物是一本 66 页的付费手册《How to Hire an AI》，售价 29 美元。手册教你怎么把大模子酿成有身份、有影象、醒目活的“AI 员工”，包罗三段式影象架构、子署理委派、安全护栏、一样平常运营节奏这些内容。项目配套一个 Claw Mart 应用市场，提供预置品德和技能模板。

[attach]10783[/attach]

官网

https://felixcraft.ai/
简评

这个项目自己就是用 AI 运营的——作者以 AI 身份担当公司 CEO，展示怎样与人类协作。从 1500 美元赚到 115051 美元，分析确实有实战结果。紧张收入泉源就是卖手册和在 Claw Mart 上分享 AI 品德模板。
Paperclip

先容

Paperclip 是一个开源的“零人公司”编排层：用 Node.js + React 构建了一套仪表盘，可以雇佣多个 AI 署理，给它们分配目标、预算和任务，让它们像公司部门一样协作运行业务。项目夸大“AI 员工 + 构造架构 + 预算控制 + 目标管理”，得当构建高度自动化的业务流。中文社区常把它与 OpenAI 的 Symphony 一起讨论，用于 GitHub Issue 自动处理惩罚等场景。

[attach]10784[/attach]

官网

https://github.com/paperclipai/paperclip
简评

把“多智能体 + 公司管理”做成产物，思绪很清晰：得当有大量重复工作流的团队。但它更像“编排框架”，须要你已经有可用的 Agent，否则轻易酿成空壳。
Clawith

先容

Clawith 是 DataElem 团队在 GitHub 开源的“OpenClaw for Teams”项目，定位为面向团队的多智能体协作平台。每个 Agent 有长期身份、恒久影象和独立工作空间，可以像团队成员一样协作，与你一起完成复杂任务。从代码堆栈看，它基于 OpenClaw/ClawCore 扩展，夸大企业级多 Agent 场景。

[attach]10785[/attach]

官网

https://www.clawith.ai/
简评

如果你是企业/团队，想把 OpenClaw 这类单 Agent 本领扩展成“部门级协作”，Clawith 是比力直接的骨架。但团体偏技能向，须要肯定工程本领。
Pinchatab

先容

PinchTab 是一个独立的 HTTP 服务器，它使 AI 署理可以或许直接控制 Chrome 欣赏器。它有两个运行时脚色：

pinchtab 或 pinchtab server — 完备的控制平面服务器
pinchtab bridge ——一个单实例桥接运行时大多数用户只须要完备的服务器。它管理用户设置文件、实例、路由和 Web 控制面板。 bridge 模式是用于背景管理子实例的精简型单实例运行时环境。

官网

https://pinchtab.com/
简评

PinchTab 致力于低沉开辟者的利用门槛。其发布情势为一个仅约 12MB 的独立二进制包，没有任何外部依靠，真正做到开箱即用。这使得摆设过程极其简朴，无论是在云端服务器、当地开辟机，还是在树莓派等 ARM64 架构的边沿装备上，都能通过一行安装下令快速完成摆设。项目提供了细致的文档支持，从底子的概念讲授到丰富的 API 接口分析，资助开辟者轻松上手，快速集成到现有项目中。
GPT-5.4

先容

GPT‑5.4 是 OpenAI 在 2026 年发布的“新一代智能体模子”，在报道中被形貌为首个拥有“原生电脑利用本领”的通用模子：可以辨认 UI、利用键鼠、在差别软件和网页之间穿梭，在 OSWorld‑Verified 等基准上表现突出。同时，它已经集成到 GitHub Copilot 等产物中，被定位为“agentic coding model”。Cursor 文档中也将其列为“当前最强模子之一”，用于代码天生与复杂工作流。
官网

https://openai.com/zh-Hans-CN/index/introducing-gpt-5-4/
简评

真正开始从“谈天模子”走向“利用体系级 Agent”，对开辟者、自动化工作流影响很大。但权限和安全性也须要特别留意，让模子直接利用电脑意味着更严格的对齐与审计。
Gemini 3.1 Flash-Lite

先容

Gemini 3.1 Flash‑Lite 是谷歌 Gemini 3 系列中“最快、性价比最高”的模子版本，主打高吞吐、低资本，得当大规模开辟者工作负载。官方和媒体都夸大：它在相应速率上比前代提拔约 2.5 倍，代价显着低沉，得当及时交互、在线服务等场景。DeepMind 官方模子页也提到它可以及时构建天气仪表盘等可视化应用。
官网

https://deepmind.google/models/model-cards/gemini-3-1-flash-lite/
简评

如果你须要大量、高频调用大模子（比如在线客服、及时保举），Flash‑Lite 这种“快 + 省”的定位很实用；但对复杂推理或高精度任务，仍发起用更强的 Gemini 3.x Pro/Max 版本。
Workspace CLI

先容

Google Workspace CLI 是谷歌开源的下令行工具，把 Google Drive、Gmail、Calendar 等 Workspace 云 API 封装成同一的下令行接口，支持结构化 JSON 输入输出，特别得当 AI 署理自动化调用。中文报道指出，它内置 40 余项“署理技能”，可以让 OpenClaw 等 AI 智能体直接接受云盘、自动收发邮件、安排日程等。
官网

github堆栈地点：https://github.com/googleworkspace/cli
Workspace CLI 利用指南：https://www.chooseai.net/news/2720/
简评

对想做“AI 办公自动化”的开辟者很友爱，相称于给 Agent 配了一套“Office 专用遥控器”。不外它自己只是工具层，须要共同 Agent 框架利用。
HY WU

先容

HY‑WU（混元无相）是腾讯混元团队在 2026 年提出的功能性神经影象框架。其核心头脑是：通过 Transformer 参数天生器，在推理时根据输入及时天生个性化 LoRA 权重，办理传统大模子“劫难性忘记”和“性能跷跷板”标题。技能陈诉指出，当任务多样以致相互抵牾时，单一参数难以分身，HY‑WU 通过动态天生“小脑”来为每个任务实例定制模子本领。

[attach]10786[/attach]

官网

https://github.com/Tencent-Hunyuan/HY-WU/
简评

算是“动态个性化模子”的一次风趣实行，对多任务、长周期业务场景很故意义。现在紧张在图像编辑等任务上验证，将来会不会扩展到通用大模子还要看社区落地环境。
FireRed Edit 1.1

先容

FireRed Edit 是小红书团队推出的图像编辑模子（技能陈诉为 FireRed‑Image‑Edit‑1.0），基于 Qwen‑image 等技能门路，主打高保真、指令驱动的图片编辑。社区测评表现，它支持换装、改配景、重绘等利用，有 40GB 原生模子和 FP8 量化版本，在 ComfyUI 中已有配套工作流。

[attach]10787[/attach]

官网

FireRed Edit 1.1
简评

在 Stable Diffusion 生态之外，又多了一个国产高保真图像编辑选择，对中文场景、电商图、人像编辑都比力友爱。但体量大，对显存有要求。
LTX-2.3

先容

LTX‑2.3 是 Lightricks 推出的开源视频天生模子，属于 LTX‑2 家属的一次大版本升级。它接纳 DiT（Diffusion Transformer）架构，是一个“音视频底子模子”，可以从文本、图片、音频天生同步音视频，支持最高 4K 分辨率、50 FPS、最长 20 秒片断。相比 LTX‑2，LTX‑2.3 在细节、运动流通度、音频质量和提示词跟随上都有显着提拔，并原生支持竖屏视频。

[attach]10788[/attach]

官网

https://ltx.io/model/ltx-2-3
简评

真正面向“生产级视频创作”的开源模子：4K、音视频同步、当地/API 双模式，对创作者和开辟者都很友爱。显存和算力门槛不低，得当有 GPU 条件。
Kiwi Edit

先容

Kiwi‑Edit 是新加坡国立大学 ShowLab 提出的开源视频编辑框架，特点是“通过笔墨指令 + 参考图片举行精准视频编辑”。用户可以用自然语言形貌要改的内容，并提供一张参考图，体系自动完成局部编辑、配景更换等利用。论文提出同一的编辑架构，团结可学习查询与潜伏视觉特性，实现多模态条件下的视频编辑。

[attach]10789[/attach]

官网

https://showlab.github.io/Kiwi-Edit/
Kiwi-Edit论文地点：https://arxiv.org/abs/2603.02175
简评

把“图 + 文”驱动视频编辑做得比力体系，对创作者来说比纯笔墨 Prompt 更直观。得当做影视后期、短视频素材二次加工等场景。
Real Wonder

先容

RealWonder 是一个“及时物理动作条件视频天生”体系，由斯坦福大学 & 南加州大学团队提出，核心目标是：从单张静态图像出发，根据三维物理动作（力、呆板人利用、相机运动等）及时天生物理公道的视频流。
官网

https://github.com/liuwei283/RealWonder/tree/main
简评

RealWonder 把视频天生从“纯视觉天生”推向“物理天下模拟 + 高保真渲染”，在“物理公道 + 视觉真实”的权衡上做得比力前沿zhihu.com。如果你在做呆板人仿真、物理场景明确或交互式内容天生，这是一个很值得关注的项目。
CubeComposer

先容

CubeComposer 是腾讯 ARC 提出的时空自回归扩散模子，用于从平常视角视频天生 4K 分辨率的 360° 全景视频。论文将其建模为立方体贴图（cubemap）表现，通过期空自回归扩散直接天生 3840×1920 分辨率的 360° 视频。HuggingFace 上提供两个变体，支持 2K/3K 分辨率天生。
官网

https://github.com/TencentARC/CubeComposer?tab=readme-ov-file
论文地点：https://arxiv.org/pdf/2603.04291
简评

针对VR/全景视频天生的一个非常垂直的模子，对陶醉式内容创作者很有代价。但相对小众，须要全景/VR 工作流才故意义。
OmniLottie

先容

OmniLottie 是复旦大学、阶跃星辰等团结提出的“多模态矢量动画天生框架”，其核心是：把 Lottie 动画的 JSON 表现压缩成参数化的 token 序列，让视觉语言模子可以直接天生带关键帧、缓动曲线的矢量动画。用户只须要输入一张图或一段笔墨指令，就能天生可编辑的 Lottie 动画工程文件。
官网

https://openvglab.github.io/OmniLottie/
简评

把“AI 天生动画”从帧序列推进到“可编辑矢量工程”，对 UI 动效、App 动画、Web 动画等场景非常实用，是 AIGC 在矢量动画范畴的一次突破。

欢迎光临 qidao123.com ToB IT社区-企服评测·应用市场 (https://dis.qidao123.com/)