gstack:将 AI 编程助手转化为虚拟工程团队的完整工作流系统

gstack 是一个将 AI 编程助手转化为虚拟工程团队的完整工作流系统。

由 Y Combinator CEO Garry Tan 开源,23 个专业技能 + 8 个工具命令,围绕思考 → 规划 → 构建 → 审查 → 测试 → 发布 → 复盘的完整 Sprint 流程编排,让一个人拥有 CEO、工程经理、设计师、安全官、QA、发布工程师等多重角色。

目录


1. 整体设计哲学

gstack 的核心不是工具集合,而是一套强制执行的软件流程。它明确覆盖了 Karpathy 总结的 AI 编程四大失败模式:错误假设、过度复杂、正交编辑、命令式代替声明式。每个技能产出会流入下一个技能,形成闭环,不会遗漏任何环节。

核心 Sprint 流程如下:

1
2
3
4
5
6
7
8
9
10
flowchart LR
A["/office-hours<br/>需求拷问"] --> B["/plan-ceo-review<br/>战略审视"]
B --> C["/plan-eng-review<br/>架构锁定"]
C --> D["实施编码"]
D --> E["/review<br/>代码审查"]
E --> F["/qa<br/>浏览器测试"]
F --> G["/ship<br/>发布PR"]
G --> H["/land-and-deploy<br/>部署上线"]
H --> I["/canary<br/>生产监控"]
I --> J["/retro<br/>复盘回顾"]

2. 完整应用场景详解

2.1 从零启动一个新项目/新功能

这是 gstack 最核心、最完整的应用路径,适合创始人、独立开发者、技术负责人在启动任何新功能时使用。

技能链:

步骤 技能 实际做了什么
1 /office-hours 6 个强制性问题拷问你的需求——你描述的”日历简报 App”可能本质上是一个”AI 参谋长”。AI 会挑战你的假设、推翻你的框架、生成 3 种实现方案并给出工时估算,最终产出一份设计文档
2 /plan-ceo-review 读取设计文档,从战略层面审视范围。支持 4 种模式:扩张(找到 10 星产品)、选择性扩张、保持范围、缩减范围
3 /plan-eng-review 锁定架构、数据流、状态机、边界条件、测试矩阵,产出 ASCII 架构图和安全关注点
4 (可选)/plan-design-review 面向终端用户的项目,审查每个设计维度打分 0-10,AI Slop 检测
5 (可选)/plan-devex-review 面向开发者的 API/CLI/SDK 项目,对比竞品 TTHW(Time to Hello World),设计”魔法时刻”
6 /autoplan 一键替代步骤 2-5,自动按需运行 CEO→设计→工程→DX 审查,仅将关键决策点暴露给你确认

典型实际案例: 你在做一个 SaaS 后台管理系统的新模块(如用户权限管理),直接运行 /office-hours 描述需求,AI 会追问”为什么不是基于 RBAC 的标准方案?你的用户实际的痛苦是什么?”——帮你避免过度设计。然后 /autoplan 自动出完整的技术方案和 UI 设计评审。


2.2 日常编码 + 代码审查

这是最频繁使用的场景,每次提交代码前都应执行。

步骤 技能 实际做了什么
代码审查 /review 像高级工程师一样审查代码,找出 CI 通过但生产环境会爆炸的 Bug。自动修复明显问题,标记完整度缺陷
跨模型审查 /codex 让 OpenAI Codex CLI 独立审查同一份代码。三种模式:通过/不通过门禁、对抗性挑战(主动尝试破坏你的代码)、开放咨询。当同时运行了 /review/codex 后,会生成交叉模型分析报告
安全审查 /cso 首席安全官:OWASP Top 10 + STRIDE 威胁建模。每个发现附带具体利用场景。零噪音设计(17 个误报排除规则、8/10+ 置信度门槛)

典型实际案例: 你花了一下午实现了一个支付模块,运行 /review 后发现 AI 自动修复了两个并发安全漏洞,然后运行 /cso 发现一个 CSRF 防护缺失——这些问题在传统 Code Review 中很容易被遗漏。


2.3 UI/UX 设计与前端开发

gstack 的设计管线是其最大亮点之一,提供了从概念到生产代码的完整链路。

步骤 技能 实际做了什么
设计系统搭建 /design-consultation 研究竞品设计格局、提出创造性风险、生成完整设计系统和产品 Mockup
快速探索 /design-shotgun “给我看看选项”——生成 4-6 个不同风格的 Mockup 变体,在浏览器中并排对比。你选择偏好、给出反馈,AI 迭代生成新版本。品味记忆机制学习你的审美偏好
设计审计 /plan-design-review 编码前审查设计方案,AI Slop 检测
生产代码 /design-html 将确认的 Mockup 转为生产级 HTML/CSS(30KB 零依赖),自动检测 React/Svelte/Vue 框架,Pretext 计算文本布局——真实回流、动态高度
上线后审计 /design-review 编码后审查实际效果,修复发现的问题,生成 before/after 截图

典型实际案例: 你需要给产品做一个新的 Landing Page。运行 /design-shotgun,AI 生成 6 种不同风格的页面设计,你在浏览器对比板中选了第 3 和第 5 种,并反馈”更多留白、更粗的标题”。第二轮迭代后你选定了一个版本,然后运行 /design-html 直接产出可部署的 HTML 代码。


2.4 QA 测试与质量保障

gstack 的 QA 能力让 AI 拥有了”眼睛”——通过真实浏览器操作页面。

步骤 技能 实际做了什么
全流程测试 /qa https://staging.xxx.com 打开真实 Chromium 浏览器,点击页面流程,发现 Bug 后自动修复并生成回归测试,然后重新验证
纯报告 /qa-only 同样的测试方法,但只输出 Bug 报告,不修改代码
浏览器控制 /browse 让 AI 代理获得浏览器视觉能力:真实点击、真实截图,每次命令 ~100ms
GStack 浏览器 /open-gstack-browser 启动带侧边栏的专用浏览器,反机器人检测、自动模型路由(Sonnet 做操作、Opus 做分析)
认证测试 /setup-browser-cookies 从你的真实浏览器(Chrome/Arc/Brave/Edge)导入 Cookie,测试需要登录的页面

典型实际案例: 你部署了一个电商购物车功能到 staging 环境,运行 /qa https://staging.yourshop.com/cart,AI 打开浏览器真的点击”加入购物车”→”修改数量”→”结算”,发现库存扣减的竞态条件 Bug,自动修复并补了 3 个回归测试。


2.5 发布与部署

代码写完了,如何安全上线?

步骤 技能 实际做了什么
发布 PR /ship 同步 main 分支、运行测试、审计覆盖率、推送、创建 PR。如果没有测试框架,自动从零搭建
部署上线 /land-and-deploy 合并 PR,等待 CI 和部署完成,验证生产环境健康状态。从”已批准”到”已验证上线”一条命令
一次配置 /setup-deploy 自动检测你的部署平台、生产 URL 和部署命令
生产监控 /canary 部署后监控循环:检测控制台错误、性能回退、页面故障
性能基准 /benchmark 建立页面加载时间、Core Web Vitals、资源大小的基线,每个 PR 前后对比

典型实际案例: 功能开发和审查都完成后,运行 /ship,AI 自动同步代码、跑完测试套件(测试从 42 个增加到 51 个),创建 PR。Code Review 通过后运行 /land-and-deploy,等待 Vercel 部署完成,自动访问生产 URL 验证关键页面正常。


2.6 文档维护

这是传统团队最容易被忽略的环节,gstack 专门处理。

技能 实际做了什么
/document-release 读取项目中所有文档文件,对比本次 diff,自动更新所有漂移的文档——README、ARCHITECTURE、CONTRIBUTING、CLAUDE.md、TODOS
/ship 自动联动 /ship 命令会自动触发 /document-release,无需额外操作

2.7 调试与问题排查

步骤 技能 实际做了什么
系统化调试 /investigate 铁律:未经调查不修复。追踪数据流、测试假设、3 次失败修复后自动停止
安全锁 /freeze 限制文件编辑范围到单个目录,防止调试时 AI 不小心”修”了无关代码
危险命令保护 /careful 在执行 rm -rf、DROP TABLE、force-push 等破坏性命令前警告
全面保护 /guard /careful + /freeze 同时激活,生产环境工作的最大安全级别

典型实际案例: 生产环境报了一个支付回调失败的问题。运行 /investigate,AI 自动冻结到支付模块目录、追踪数据流、发现是第三方回调的签名算法版本升级导致的不兼容,修复后验证通过。


2.8 项目复盘与持续改进

技能 实际做了什么
/retro 团队感知的周度复盘:每人贡献拆解、交付连贯性、测试健康趋势、成长机会。/retro global 跨所有项目汇总
/learn 管理 AI 跨会话学习到的模式、陷阱和偏好。知识跨会话累积,让 AI 在你的代码库上越来越聪明

2.9 多代理并行与协作

技能 实际做了什么
/pair-agent 与 OpenClaw、Hermes、Codex、Cursor 等其他 AI 代理共享同一个浏览器。每个代理独占一个 Tab,自动启动 ngrok 隧道支持远程代理,有限作用域 Token、Tab 隔离、速率限制

实际效果: 你可以同时让 Claude Code 在开发功能、OpenClaw 在执行 /qa 测试 staging、Codex 在做 /codex 安全审查——三者在同一个浏览器中协同工作,互不干扰。Garry Tan 本人日常并行运行 10-15 个 Sprint。


3. 按角色/场景选择技能速查表

你是什么角色 最常使用的技能组合
独立创始人/Indie Hacker /office-hours/autoplan → 编码 → /review/qa/ship
前端开发者 /design-shotgun/design-html/review/qa/ship
后端/架构师 /office-hours/plan-eng-review → 编码 → /review/cso/ship
Tech Lead /autoplan + /review + /codex(交叉模型审查)+ /retro
安全工程师 /cso + /codex(对抗模式)
QA 工程师 /qa + /qa-only + /browse + /setup-browser-cookies
DevOps/SRE /ship/land-and-deploy/canary/benchmark

4. 如何在你的项目中实际使用

  1. 30 秒安装: 在 Claude Code 中粘贴安装命令,AI 自动完成配置。支持 Claude Code、OpenAI Codex CLI、Cursor、OpenCode 等 10 种 AI 编程代理。

  2. 团队模式(推荐): 运行 ./setup --team 后,项目仓库会自动要求所有团队成员安装 gstack,无版本漂移,每小时自动静默更新检查。

  3. 最小可行体验路径: 安装后依次运行 /office-hours/plan-ceo-review/review/qa,5 个命令就能判断这套工具是否适合你。

  4. 核心决策:不必全用。 gstack 的设计是”按需组合”——修复一个 README 拼写错误不需要运行 /office-hours;但启动一个为期 3 个月的新产品模块,走完整流程会让质量产生数量级的差异。


gstack 本质上把”一个人像 20 人团队一样交付”这件事从口号变成了可执行的标准操作流程。它的价值不在于单个技能有多强,而在于每个技能的产出都被下一个技能消费,形成零遗漏的工程闭环——这正是传统小团队最容易断掉的链条。