项目

近期重点 Agent 系统与既有研究工程作品。

项目总览

从研究原型到可部署的 Agent 系统

第一部分是这次想重点展示的三个近期项目,第二部分展示它们背后的研究工程、算法与性能优化工作。

重点项目

近期重点项目

project thumbnail
长时运行 Agent 2026

codex-long-running-harness

面向长时运行应用开发的 Codex-first harness,强调 sprint 规划、评估闭环和 benchmark 快照。

  • 把开放式应用开发拆成可检查的 sprint。
  • 不走单次 prompting,而是显式规划器、生成器、评估器协同。
  • 保存 benchmark 快照,让进展可度量、可复现。
Codex Sprint planning Evaluator loop Benchmarks
project thumbnail
执行平台 2026

TaskCaptain

面向真实工作区的可监督 Agent 执行平台,强调任务状态透明、运行过程可见、控制权本地优先。

  • 让 Agent 在真实项目工作区中运行,并保留清晰任务状态。
  • 显式管理日志、工件和配置边界。
  • 把 AI 定位为可监督执行者,而不是仅会聊天的助手。
Local-first Agent runtime Task state Logs and artifacts
project thumbnail
Rust 编排 2026

crewai-rs

Rust 原生多 Agent 编排框架,强调类型化任务、确定性流程控制与更适合部署的运行时设计。

  • 不再依赖 Python 胶水代码,而是用 Rust 重建多 Agent 编排。
  • 用类型化运行时概念组织 agent、task、crew 和 flow。
  • 面向更低开销、更适合部署的 Agent 基础设施。
Rust Multi-agent Typed flows YAML blueprint

研究工程档案

既有系统、算法与性能工程作品

project thumbnail
RAG 治理 2025

OverSearchGuard

面向 Agentic RAG 的冲突感知证据裁剪层,兼顾鲁棒性与 token 成本。

  • 在生成前限制重复且低质量的证据刷屏。
  • 无需微调即可建模可靠度与新鲜度。
  • 同时提升准确率并显著压缩 token 开销。
Agentic RAG Evidence thinning 成本感知评测
project thumbnail
推理效率 2025

FlashToken

面向低延迟 LLM 系统的 Tokenizer 端前缀缓存,在可复用提示上可达 27x-37x 提速。

  • 在不改模型权重的前提下复用长提示前缀。
  • 同时支持固定前缀和 append-only 对话流程。
  • 保持 token 完全一致的同时获得大幅提速。
Tokenization Prefix caching Tiktoken
project thumbnail
可靠性 2025

OrderGuard

通过置换边缘化降低 LLM 判题、重排和工具选择对候选顺序的敏感性。

  • 在推理期把候选顺序视作干扰变量处理。
  • 结合低方差置换调度与自适应 early-stop。
  • 在 Qwen3 评测套件上带来稳定准确率增益。
LLM judging Reranking 置换不变性
project thumbnail
数值内核 2024

Turbo-Softmax

面向资源受限 CPU 与 MCU 的高精度快速 Softmax C 内核实现。

  • 使用面向 IEEE-754 的实现技巧适配通用 MCU。
  • 在数值精度与吞吐之间做平衡优化。
  • 体现了进入 Agent 系统之前的底层性能工程兴趣。
C MCU Softmax kernel