codex-long-running-harness
面向长时运行应用开发的 Codex-first harness,强调 sprint 规划、评估闭环和 benchmark 快照。
codex-long-running-harness 是一个面向长时运行应用开发的 Codex-first harness。它把长周期编码任务视为系统工程问题,而不是把 prompt 拉得更长:先规划、再执行 sprint、再评估、再记录快照,然后进入下一轮。
为什么重要
- 长周期软件任务需要显式状态管理,而不是更长的上下文。
- 评估必须进入主循环,否则系统会在无人察觉时漂移。
- 每一轮 sprint 都应该留下可恢复的工件,而不是中断后全部重来。
核心流程
goal -> planner -> sprint backlog -> generator -> evaluator -> snapshot -> next sprint
这个项目真正强调的能力
- Sprint 化执行: 把超长任务拆成有边界、可检查的工作周期。
- 评估驱动迭代: evaluator 不是附属工具,而是运行时的一部分。
- 可恢复性: 中间结果和 benchmark 快照使系统能够持续推进,而不是频繁重启。
- 研究级可追踪: 每一次迭代都能被比较、审计和系统优化。
为什么它值得放在首页重点位置
这不是普通的 Agent demo。它解决的是更核心的问题:如何让 AI 编码系统在更长时间内稳定工作,同时保持透明、可验证和可恢复。