gstack:将 AI 编程助手转化为虚拟工程团队的完整工作流系统
gstack:将 AI 编程助手转化为虚拟工程团队的完整工作流系统
gstack 是一个将 AI 编程助手转化为虚拟工程团队的完整工作流系统。
由 Y Combinator CEO Garry Tan 开源,23 个专业技能 + 8 个工具命令,围绕思考 → 规划 → 构建 → 审查 → 测试 → 发布 → 复盘的完整 Sprint 流程编排,让一个人拥有 CEO、工程经理、设计师、安全官、QA、发布工程师等多重角色。
目录
1. 整体设计哲学
gstack 的核心不是工具集合,而是一套强制执行的软件流程。它明确覆盖了 Karpathy 总结的 AI 编程四大失败模式:错误假设、过度复杂、正交编辑、命令式代替声明式。每个技能产出会流入下一个技能,形成闭环,不会遗漏任何环节。
核心 Sprint 流程如下:
1 | flowchart LR |
2. 完整应用场景详解
2.1 从零启动一个新项目/新功能
这是 gstack 最核心、最完整的应用路径,适合创始人、独立开发者、技术负责人在启动任何新功能时使用。
技能链:
| 步骤 | 技能 | 实际做了什么 |
|---|---|---|
| 1 | /office-hours |
6 个强制性问题拷问你的需求——你描述的”日历简报 App”可能本质上是一个”AI 参谋长”。AI 会挑战你的假设、推翻你的框架、生成 3 种实现方案并给出工时估算,最终产出一份设计文档 |
| 2 | /plan-ceo-review |
读取设计文档,从战略层面审视范围。支持 4 种模式:扩张(找到 10 星产品)、选择性扩张、保持范围、缩减范围 |
| 3 | /plan-eng-review |
锁定架构、数据流、状态机、边界条件、测试矩阵,产出 ASCII 架构图和安全关注点 |
| 4 | (可选)/plan-design-review |
面向终端用户的项目,审查每个设计维度打分 0-10,AI Slop 检测 |
| 5 | (可选)/plan-devex-review |
面向开发者的 API/CLI/SDK 项目,对比竞品 TTHW(Time to Hello World),设计”魔法时刻” |
| 6 | /autoplan |
一键替代步骤 2-5,自动按需运行 CEO→设计→工程→DX 审查,仅将关键决策点暴露给你确认 |
典型实际案例:
你在做一个 SaaS 后台管理系统的新模块(如用户权限管理),直接运行 /office-hours 描述需求,AI 会追问”为什么不是基于 RBAC 的标准方案?你的用户实际的痛苦是什么?”——帮你避免过度设计。然后 /autoplan 自动出完整的技术方案和 UI 设计评审。
2.2 日常编码 + 代码审查
这是最频繁使用的场景,每次提交代码前都应执行。
| 步骤 | 技能 | 实际做了什么 |
|---|---|---|
| 代码审查 | /review |
像高级工程师一样审查代码,找出 CI 通过但生产环境会爆炸的 Bug。自动修复明显问题,标记完整度缺陷 |
| 跨模型审查 | /codex |
让 OpenAI Codex CLI 独立审查同一份代码。三种模式:通过/不通过门禁、对抗性挑战(主动尝试破坏你的代码)、开放咨询。当同时运行了 /review 和 /codex 后,会生成交叉模型分析报告 |
| 安全审查 | /cso |
首席安全官:OWASP Top 10 + STRIDE 威胁建模。每个发现附带具体利用场景。零噪音设计(17 个误报排除规则、8/10+ 置信度门槛) |
典型实际案例:
你花了一下午实现了一个支付模块,运行 /review 后发现 AI 自动修复了两个并发安全漏洞,然后运行 /cso 发现一个 CSRF 防护缺失——这些问题在传统 Code Review 中很容易被遗漏。
2.3 UI/UX 设计与前端开发
gstack 的设计管线是其最大亮点之一,提供了从概念到生产代码的完整链路。
| 步骤 | 技能 | 实际做了什么 |
|---|---|---|
| 设计系统搭建 | /design-consultation |
研究竞品设计格局、提出创造性风险、生成完整设计系统和产品 Mockup |
| 快速探索 | /design-shotgun |
“给我看看选项”——生成 4-6 个不同风格的 Mockup 变体,在浏览器中并排对比。你选择偏好、给出反馈,AI 迭代生成新版本。品味记忆机制学习你的审美偏好 |
| 设计审计 | /plan-design-review |
编码前审查设计方案,AI Slop 检测 |
| 生产代码 | /design-html |
将确认的 Mockup 转为生产级 HTML/CSS(30KB 零依赖),自动检测 React/Svelte/Vue 框架,Pretext 计算文本布局——真实回流、动态高度 |
| 上线后审计 | /design-review |
编码后审查实际效果,修复发现的问题,生成 before/after 截图 |
典型实际案例:
你需要给产品做一个新的 Landing Page。运行 /design-shotgun,AI 生成 6 种不同风格的页面设计,你在浏览器对比板中选了第 3 和第 5 种,并反馈”更多留白、更粗的标题”。第二轮迭代后你选定了一个版本,然后运行 /design-html 直接产出可部署的 HTML 代码。
2.4 QA 测试与质量保障
gstack 的 QA 能力让 AI 拥有了”眼睛”——通过真实浏览器操作页面。
| 步骤 | 技能 | 实际做了什么 |
|---|---|---|
| 全流程测试 | /qa https://staging.xxx.com |
打开真实 Chromium 浏览器,点击页面流程,发现 Bug 后自动修复并生成回归测试,然后重新验证 |
| 纯报告 | /qa-only |
同样的测试方法,但只输出 Bug 报告,不修改代码 |
| 浏览器控制 | /browse |
让 AI 代理获得浏览器视觉能力:真实点击、真实截图,每次命令 ~100ms |
| GStack 浏览器 | /open-gstack-browser |
启动带侧边栏的专用浏览器,反机器人检测、自动模型路由(Sonnet 做操作、Opus 做分析) |
| 认证测试 | /setup-browser-cookies |
从你的真实浏览器(Chrome/Arc/Brave/Edge)导入 Cookie,测试需要登录的页面 |
典型实际案例:
你部署了一个电商购物车功能到 staging 环境,运行 /qa https://staging.yourshop.com/cart,AI 打开浏览器真的点击”加入购物车”→”修改数量”→”结算”,发现库存扣减的竞态条件 Bug,自动修复并补了 3 个回归测试。
2.5 发布与部署
代码写完了,如何安全上线?
| 步骤 | 技能 | 实际做了什么 |
|---|---|---|
| 发布 PR | /ship |
同步 main 分支、运行测试、审计覆盖率、推送、创建 PR。如果没有测试框架,自动从零搭建 |
| 部署上线 | /land-and-deploy |
合并 PR,等待 CI 和部署完成,验证生产环境健康状态。从”已批准”到”已验证上线”一条命令 |
| 一次配置 | /setup-deploy |
自动检测你的部署平台、生产 URL 和部署命令 |
| 生产监控 | /canary |
部署后监控循环:检测控制台错误、性能回退、页面故障 |
| 性能基准 | /benchmark |
建立页面加载时间、Core Web Vitals、资源大小的基线,每个 PR 前后对比 |
典型实际案例:
功能开发和审查都完成后,运行 /ship,AI 自动同步代码、跑完测试套件(测试从 42 个增加到 51 个),创建 PR。Code Review 通过后运行 /land-and-deploy,等待 Vercel 部署完成,自动访问生产 URL 验证关键页面正常。
2.6 文档维护
这是传统团队最容易被忽略的环节,gstack 专门处理。
| 技能 | 实际做了什么 |
|---|---|
/document-release |
读取项目中所有文档文件,对比本次 diff,自动更新所有漂移的文档——README、ARCHITECTURE、CONTRIBUTING、CLAUDE.md、TODOS |
/ship 自动联动 |
/ship 命令会自动触发 /document-release,无需额外操作 |
2.7 调试与问题排查
| 步骤 | 技能 | 实际做了什么 |
|---|---|---|
| 系统化调试 | /investigate |
铁律:未经调查不修复。追踪数据流、测试假设、3 次失败修复后自动停止 |
| 安全锁 | /freeze |
限制文件编辑范围到单个目录,防止调试时 AI 不小心”修”了无关代码 |
| 危险命令保护 | /careful |
在执行 rm -rf、DROP TABLE、force-push 等破坏性命令前警告 |
| 全面保护 | /guard |
/careful + /freeze 同时激活,生产环境工作的最大安全级别 |
典型实际案例:
生产环境报了一个支付回调失败的问题。运行 /investigate,AI 自动冻结到支付模块目录、追踪数据流、发现是第三方回调的签名算法版本升级导致的不兼容,修复后验证通过。
2.8 项目复盘与持续改进
| 技能 | 实际做了什么 |
|---|---|
/retro |
团队感知的周度复盘:每人贡献拆解、交付连贯性、测试健康趋势、成长机会。/retro global 跨所有项目汇总 |
/learn |
管理 AI 跨会话学习到的模式、陷阱和偏好。知识跨会话累积,让 AI 在你的代码库上越来越聪明 |
2.9 多代理并行与协作
| 技能 | 实际做了什么 |
|---|---|
/pair-agent |
与 OpenClaw、Hermes、Codex、Cursor 等其他 AI 代理共享同一个浏览器。每个代理独占一个 Tab,自动启动 ngrok 隧道支持远程代理,有限作用域 Token、Tab 隔离、速率限制 |
实际效果: 你可以同时让 Claude Code 在开发功能、OpenClaw 在执行 /qa 测试 staging、Codex 在做 /codex 安全审查——三者在同一个浏览器中协同工作,互不干扰。Garry Tan 本人日常并行运行 10-15 个 Sprint。
3. 按角色/场景选择技能速查表
| 你是什么角色 | 最常使用的技能组合 |
|---|---|
| 独立创始人/Indie Hacker | /office-hours → /autoplan → 编码 → /review → /qa → /ship |
| 前端开发者 | /design-shotgun → /design-html → /review → /qa → /ship |
| 后端/架构师 | /office-hours → /plan-eng-review → 编码 → /review → /cso → /ship |
| Tech Lead | /autoplan + /review + /codex(交叉模型审查)+ /retro |
| 安全工程师 | /cso + /codex(对抗模式) |
| QA 工程师 | /qa + /qa-only + /browse + /setup-browser-cookies |
| DevOps/SRE | /ship → /land-and-deploy → /canary → /benchmark |
4. 如何在你的项目中实际使用
30 秒安装: 在 Claude Code 中粘贴安装命令,AI 自动完成配置。支持 Claude Code、OpenAI Codex CLI、Cursor、OpenCode 等 10 种 AI 编程代理。
团队模式(推荐): 运行
./setup --team后,项目仓库会自动要求所有团队成员安装 gstack,无版本漂移,每小时自动静默更新检查。最小可行体验路径: 安装后依次运行
/office-hours→/plan-ceo-review→/review→/qa,5 个命令就能判断这套工具是否适合你。核心决策:不必全用。 gstack 的设计是”按需组合”——修复一个 README 拼写错误不需要运行
/office-hours;但启动一个为期 3 个月的新产品模块,走完整流程会让质量产生数量级的差异。
gstack 本质上把”一个人像 20 人团队一样交付”这件事从口号变成了可执行的标准操作流程。它的价值不在于单个技能有多强,而在于每个技能的产出都被下一个技能消费,形成零遗漏的工程闭环——这正是传统小团队最容易断掉的链条。
