项目

近期重点 Agent 系统与既有研究工程作品。

项目总览

从研究原型到可部署的 Agent 系统

第一部分是这次想重点展示的三个近期项目，第二部分展示它们背后的研究工程、算法与性能优化工作。

重点项目

近期重点项目

长时运行 Agent 2026

codex-long-running-harness

面向长时运行应用开发的 Codex-first harness，强调 sprint 规划、评估闭环和 benchmark 快照。

把开放式应用开发拆成可检查的 sprint。
不走单次 prompting，而是显式规划器、生成器、评估器协同。
保存 benchmark 快照，让进展可度量、可复现。

Codex Sprint planning Evaluator loop Benchmarks

查看详情代码仓库

执行平台 2026

TaskCaptain

面向真实工作区的可监督 Agent 执行平台，强调任务状态透明、运行过程可见、控制权本地优先。

让 Agent 在真实项目工作区中运行，并保留清晰任务状态。
显式管理日志、工件和配置边界。
把 AI 定位为可监督执行者，而不是仅会聊天的助手。

Local-first Agent runtime Task state Logs and artifacts

查看详情代码仓库

Rust 编排 2026

crewai-rs

Rust 原生多 Agent 编排框架，强调类型化任务、确定性流程控制与更适合部署的运行时设计。

不再依赖 Python 胶水代码，而是用 Rust 重建多 Agent 编排。
用类型化运行时概念组织 agent、task、crew 和 flow。
面向更低开销、更适合部署的 Agent 基础设施。

Rust Multi-agent Typed flows YAML blueprint

查看详情代码仓库

研究工程档案

既有系统、算法与性能工程作品

RAG 治理 2025

OverSearchGuard

面向 Agentic RAG 的冲突感知证据裁剪层，兼顾鲁棒性与 token 成本。

在生成前限制重复且低质量的证据刷屏。
无需微调即可建模可靠度与新鲜度。
同时提升准确率并显著压缩 token 开销。

Agentic RAG Evidence thinning 成本感知评测

查看详情代码仓库

project thumbnail

推理效率 2025

FlashToken

面向低延迟 LLM 系统的 Tokenizer 端前缀缓存，在可复用提示上可达 27x-37x 提速。

在不改模型权重的前提下复用长提示前缀。
同时支持固定前缀和 append-only 对话流程。
保持 token 完全一致的同时获得大幅提速。

Tokenization Prefix caching Tiktoken

查看详情代码仓库

可靠性 2025

OrderGuard

通过置换边缘化降低 LLM 判题、重排和工具选择对候选顺序的敏感性。

在推理期把候选顺序视作干扰变量处理。
结合低方差置换调度与自适应 early-stop。
在 Qwen3 评测套件上带来稳定准确率增益。

LLM judging Reranking 置换不变性

查看详情代码仓库

project thumbnail

数值内核 2024

Turbo-Softmax

面向资源受限 CPU 与 MCU 的高精度快速 Softmax C 内核实现。

使用面向 IEEE-754 的实现技巧适配通用 MCU。
在数值精度与吞吐之间做平衡优化。
体现了进入 Agent 系统之前的底层性能工程兴趣。

C MCU Softmax kernel

查看详情代码仓库