项目
近期重点 Agent 系统与既有研究工程作品。
项目总览
从研究原型到可部署的 Agent 系统
第一部分是这次想重点展示的三个近期项目,第二部分展示它们背后的研究工程、算法与性能优化工作。
重点项目
近期重点项目
codex-long-running-harness
面向长时运行应用开发的 Codex-first harness,强调 sprint 规划、评估闭环和 benchmark 快照。
- 把开放式应用开发拆成可检查的 sprint。
- 不走单次 prompting,而是显式规划器、生成器、评估器协同。
- 保存 benchmark 快照,让进展可度量、可复现。
TaskCaptain
面向真实工作区的可监督 Agent 执行平台,强调任务状态透明、运行过程可见、控制权本地优先。
- 让 Agent 在真实项目工作区中运行,并保留清晰任务状态。
- 显式管理日志、工件和配置边界。
- 把 AI 定位为可监督执行者,而不是仅会聊天的助手。
研究工程档案
既有系统、算法与性能工程作品
OverSearchGuard
面向 Agentic RAG 的冲突感知证据裁剪层,兼顾鲁棒性与 token 成本。
- 在生成前限制重复且低质量的证据刷屏。
- 无需微调即可建模可靠度与新鲜度。
- 同时提升准确率并显著压缩 token 开销。
FlashToken
面向低延迟 LLM 系统的 Tokenizer 端前缀缓存,在可复用提示上可达 27x-37x 提速。
- 在不改模型权重的前提下复用长提示前缀。
- 同时支持固定前缀和 append-only 对话流程。
- 保持 token 完全一致的同时获得大幅提速。
OrderGuard
通过置换边缘化降低 LLM 判题、重排和工具选择对候选顺序的敏感性。
- 在推理期把候选顺序视作干扰变量处理。
- 结合低方差置换调度与自适应 early-stop。
- 在 Qwen3 评测套件上带来稳定准确率增益。
Turbo-Softmax
面向资源受限 CPU 与 MCU 的高精度快速 Softmax C 内核实现。
- 使用面向 IEEE-754 的实现技巧适配通用 MCU。
- 在数值精度与吞吐之间做平衡优化。
- 体现了进入 Agent 系统之前的底层性能工程兴趣。