codex-long-running-harness

面向长时运行应用开发的 Codex-first harness，强调 sprint 规划、评估闭环和 benchmark 快照。

codex-long-running-harness 是一个面向长时运行应用开发的 Codex-first harness。它把长周期编码任务视为系统工程问题，而不是把 prompt 拉得更长：先规划、再执行 sprint、再评估、再记录快照，然后进入下一轮。

为什么重要

长周期软件任务需要显式状态管理，而不是更长的上下文。
评估必须进入主循环，否则系统会在无人察觉时漂移。
每一轮 sprint 都应该留下可恢复的工件，而不是中断后全部重来。

核心流程

goal -> planner -> sprint backlog -> generator -> evaluator -> snapshot -> next sprint

这个项目真正强调的能力

Sprint 化执行： 把超长任务拆成有边界、可检查的工作周期。
评估驱动迭代： evaluator 不是附属工具，而是运行时的一部分。
可恢复性： 中间结果和 benchmark 快照使系统能够持续推进，而不是频繁重启。
研究级可追踪： 每一次迭代都能被比较、审计和系统优化。

为什么它值得放在首页重点位置

这不是普通的 Agent demo。它解决的是更核心的问题：如何让 AI 编码系统在更长时间内稳定工作，同时保持透明、可验证和可恢复。