gstack：将 AI 编程助手转化为虚拟工程团队的完整工作流系统

gstack 是一个将 AI 编程助手转化为虚拟工程团队的完整工作流系统。

由 Y Combinator CEO Garry Tan 开源，23 个专业技能 + 8 个工具命令，围绕思考 → 规划 → 构建 → 审查 → 测试 → 发布 → 复盘的完整 Sprint 流程编排，让一个人拥有 CEO、工程经理、设计师、安全官、QA、发布工程师等多重角色。

1. 整体设计哲学

gstack 的核心不是工具集合，而是一套强制执行的软件流程。它明确覆盖了 Karpathy 总结的 AI 编程四大失败模式：错误假设、过度复杂、正交编辑、命令式代替声明式。每个技能产出会流入下一个技能，形成闭环，不会遗漏任何环节。

核心 Sprint 流程如下：

flowchart LR
    A["/office-hours<br/>需求拷问"] --> B["/plan-ceo-review<br/>战略审视"]
    B --> C["/plan-eng-review<br/>架构锁定"]
    C --> D["实施编码"]
    D --> E["/review<br/>代码审查"]
    E --> F["/qa<br/>浏览器测试"]
    F --> G["/ship<br/>发布PR"]
    G --> H["/land-and-deploy<br/>部署上线"]
    H --> I["/canary<br/>生产监控"]
    I --> J["/retro<br/>复盘回顾"]

2. 完整应用场景详解

2.1 从零启动一个新项目/新功能

这是 gstack 最核心、最完整的应用路径，适合创始人、独立开发者、技术负责人在启动任何新功能时使用。

技能链：

步骤	技能	实际做了什么
1	`/office-hours`	6 个强制性问题拷问你的需求——你描述的”日历简报 App”可能本质上是一个”AI 参谋长”。AI 会挑战你的假设、推翻你的框架、生成 3 种实现方案并给出工时估算，最终产出一份设计文档
2	`/plan-ceo-review`	读取设计文档，从战略层面审视范围。支持 4 种模式：扩张（找到 10 星产品）、选择性扩张、保持范围、缩减范围
3	`/plan-eng-review`	锁定架构、数据流、状态机、边界条件、测试矩阵，产出 ASCII 架构图和安全关注点
4	（可选）`/plan-design-review`	面向终端用户的项目，审查每个设计维度打分 0-10，AI Slop 检测
5	（可选）`/plan-devex-review`	面向开发者的 API/CLI/SDK 项目，对比竞品 TTHW（Time to Hello World），设计”魔法时刻”
6	`/autoplan`	一键替代步骤 2-5，自动按需运行 CEO→设计→工程→DX 审查，仅将关键决策点暴露给你确认

典型实际案例： 你在做一个 SaaS 后台管理系统的新模块（如用户权限管理），直接运行 /office-hours 描述需求，AI 会追问”为什么不是基于 RBAC 的标准方案？你的用户实际的痛苦是什么？”——帮你避免过度设计。然后 /autoplan 自动出完整的技术方案和 UI 设计评审。

2.2 日常编码 + 代码审查

这是最频繁使用的场景，每次提交代码前都应执行。

步骤	技能	实际做了什么
代码审查	`/review`	像高级工程师一样审查代码，找出 CI 通过但生产环境会爆炸的 Bug。自动修复明显问题，标记完整度缺陷
跨模型审查	`/codex`	让 OpenAI Codex CLI 独立审查同一份代码。三种模式：通过/不通过门禁、对抗性挑战（主动尝试破坏你的代码）、开放咨询。当同时运行了 `/review` 和 `/codex` 后，会生成交叉模型分析报告
安全审查	`/cso`	首席安全官：OWASP Top 10 + STRIDE 威胁建模。每个发现附带具体利用场景。零噪音设计（17 个误报排除规则、8/10+ 置信度门槛）

典型实际案例： 你花了一下午实现了一个支付模块，运行 /review 后发现 AI 自动修复了两个并发安全漏洞，然后运行 /cso 发现一个 CSRF 防护缺失——这些问题在传统 Code Review 中很容易被遗漏。

2.3 UI/UX 设计与前端开发

gstack 的设计管线是其最大亮点之一，提供了从概念到生产代码的完整链路。

步骤	技能	实际做了什么
设计系统搭建	`/design-consultation`	研究竞品设计格局、提出创造性风险、生成完整设计系统和产品 Mockup
快速探索	`/design-shotgun`	“给我看看选项”——生成 4-6 个不同风格的 Mockup 变体，在浏览器中并排对比。你选择偏好、给出反馈，AI 迭代生成新版本。品味记忆机制学习你的审美偏好
设计审计	`/plan-design-review`	编码前审查设计方案，AI Slop 检测
生产代码	`/design-html`	将确认的 Mockup 转为生产级 HTML/CSS（30KB 零依赖），自动检测 React/Svelte/Vue 框架，Pretext 计算文本布局——真实回流、动态高度
上线后审计	`/design-review`	编码后审查实际效果，修复发现的问题，生成 before/after 截图

典型实际案例： 你需要给产品做一个新的 Landing Page。运行 /design-shotgun，AI 生成 6 种不同风格的页面设计，你在浏览器对比板中选了第 3 和第 5 种，并反馈”更多留白、更粗的标题”。第二轮迭代后你选定了一个版本，然后运行 /design-html 直接产出可部署的 HTML 代码。

2.4 QA 测试与质量保障

gstack 的 QA 能力让 AI 拥有了”眼睛”——通过真实浏览器操作页面。

步骤	技能	实际做了什么
全流程测试	`/qa https://staging.xxx.com`	打开真实 Chromium 浏览器，点击页面流程，发现 Bug 后自动修复并生成回归测试，然后重新验证
纯报告	`/qa-only`	同样的测试方法，但只输出 Bug 报告，不修改代码
浏览器控制	`/browse`	让 AI 代理获得浏览器视觉能力：真实点击、真实截图，每次命令 ~100ms
GStack 浏览器	`/open-gstack-browser`	启动带侧边栏的专用浏览器，反机器人检测、自动模型路由（Sonnet 做操作、Opus 做分析）
认证测试	`/setup-browser-cookies`	从你的真实浏览器（Chrome/Arc/Brave/Edge）导入 Cookie，测试需要登录的页面

典型实际案例： 你部署了一个电商购物车功能到 staging 环境，运行 /qa https://staging.yourshop.com/cart，AI 打开浏览器真的点击”加入购物车”→”修改数量”→”结算”，发现库存扣减的竞态条件 Bug，自动修复并补了 3 个回归测试。

2.5 发布与部署

代码写完了，如何安全上线？

步骤	技能	实际做了什么
发布 PR	`/ship`	同步 main 分支、运行测试、审计覆盖率、推送、创建 PR。如果没有测试框架，自动从零搭建
部署上线	`/land-and-deploy`	合并 PR，等待 CI 和部署完成，验证生产环境健康状态。从”已批准”到”已验证上线”一条命令
一次配置	`/setup-deploy`	自动检测你的部署平台、生产 URL 和部署命令
生产监控	`/canary`	部署后监控循环：检测控制台错误、性能回退、页面故障
性能基准	`/benchmark`	建立页面加载时间、Core Web Vitals、资源大小的基线，每个 PR 前后对比

典型实际案例： 功能开发和审查都完成后，运行 /ship，AI 自动同步代码、跑完测试套件（测试从 42 个增加到 51 个），创建 PR。Code Review 通过后运行 /land-and-deploy，等待 Vercel 部署完成，自动访问生产 URL 验证关键页面正常。

2.6 文档维护

这是传统团队最容易被忽略的环节，gstack 专门处理。

技能	实际做了什么
`/document-release`	读取项目中所有文档文件，对比本次 diff，自动更新所有漂移的文档——README、ARCHITECTURE、CONTRIBUTING、CLAUDE.md、TODOS
`/ship` 自动联动	`/ship` 命令会自动触发 `/document-release`，无需额外操作

2.7 调试与问题排查

步骤	技能	实际做了什么
系统化调试	`/investigate`	铁律：未经调查不修复。追踪数据流、测试假设、3 次失败修复后自动停止
安全锁	`/freeze`	限制文件编辑范围到单个目录，防止调试时 AI 不小心”修”了无关代码
危险命令保护	`/careful`	在执行 rm -rf、DROP TABLE、force-push 等破坏性命令前警告
全面保护	`/guard`	`/careful` + `/freeze` 同时激活，生产环境工作的最大安全级别

典型实际案例： 生产环境报了一个支付回调失败的问题。运行 /investigate，AI 自动冻结到支付模块目录、追踪数据流、发现是第三方回调的签名算法版本升级导致的不兼容，修复后验证通过。

2.8 项目复盘与持续改进

技能	实际做了什么
`/retro`	团队感知的周度复盘：每人贡献拆解、交付连贯性、测试健康趋势、成长机会。`/retro global` 跨所有项目汇总
`/learn`	管理 AI 跨会话学习到的模式、陷阱和偏好。知识跨会话累积，让 AI 在你的代码库上越来越聪明

2.9 多代理并行与协作

技能	实际做了什么
`/pair-agent`	与 OpenClaw、Hermes、Codex、Cursor 等其他 AI 代理共享同一个浏览器。每个代理独占一个 Tab，自动启动 ngrok 隧道支持远程代理，有限作用域 Token、Tab 隔离、速率限制

实际效果： 你可以同时让 Claude Code 在开发功能、OpenClaw 在执行 /qa 测试 staging、Codex 在做 /codex 安全审查——三者在同一个浏览器中协同工作，互不干扰。Garry Tan 本人日常并行运行 10-15 个 Sprint。

3. 按角色/场景选择技能速查表

你是什么角色	最常使用的技能组合
独立创始人/Indie Hacker	`/office-hours` → `/autoplan` → 编码 → `/review` → `/qa` → `/ship`
前端开发者	`/design-shotgun` → `/design-html` → `/review` → `/qa` → `/ship`
后端/架构师	`/office-hours` → `/plan-eng-review` → 编码 → `/review` → `/cso` → `/ship`
Tech Lead	`/autoplan` + `/review` + `/codex`（交叉模型审查）+ `/retro`
安全工程师	`/cso` + `/codex`（对抗模式）
QA 工程师	`/qa` + `/qa-only` + `/browse` + `/setup-browser-cookies`
DevOps/SRE	`/ship` → `/land-and-deploy` → `/canary` → `/benchmark`

4. 如何在你的项目中实际使用

30 秒安装： 在 Claude Code 中粘贴安装命令，AI 自动完成配置。支持 Claude Code、OpenAI Codex CLI、Cursor、OpenCode 等 10 种 AI 编程代理。
团队模式（推荐）： 运行 ./setup --team 后，项目仓库会自动要求所有团队成员安装 gstack，无版本漂移，每小时自动静默更新检查。
最小可行体验路径： 安装后依次运行 /office-hours → /plan-ceo-review → /review → /qa，5 个命令就能判断这套工具是否适合你。
核心决策：不必全用。 gstack 的设计是”按需组合”——修复一个 README 拼写错误不需要运行 /office-hours；但启动一个为期 3 个月的新产品模块，走完整流程会让质量产生数量级的差异。

gstack 本质上把”一个人像 20 人团队一样交付”这件事从口号变成了可执行的标准操作流程。它的价值不在于单个技能有多强，而在于每个技能的产出都被下一个技能消费，形成零遗漏的工程闭环——这正是传统小团队最容易断掉的链条。