Weihan Long

AI 系统研究者|长时运行 Agent Harness|可靠的大模型基础设施

AI 系统研究者

我在做的是能长期运行、可检查、可复现、且足够快的 Agent 系统。

我的工作介于研究与系统工程之间:长时运行的编码 harness、可监督执行平台、Rust 原生多 Agent 编排, 以及面向推理与 RAG 的效率和可靠性工具。

3 重点项目
4+ 研究工程仓库
2次 IEEEXtreme 全球前 5%
Weihan Long portrait

当前重点

  • 带有显式规划、评估闭环和恢复能力的长时运行编码 Agent
  • 面向真实工作区、可监督、可审计的 Agent 执行平台
  • Rust 原生、类型化、多 Agent 工作流编排系统
邮箱 weihanlong@std.uestc.edu.cn
GitHub github.com/LongWeihan
常驻 中国成都
访问 英国剑桥(2026–2027)

研究重点

我在优化什么

长时运行 Agent 系统

把 planning、generation、evaluation、checkpointing 做成运行时的一等公民,而不是堆砌 prompt 技巧。

可靠的执行基础设施

让 Agent 能在真实项目目录里持续工作,留下可审计痕迹,并在人工监督下稳定推进任务。

推理与 RAG 效率

关注 tokenization、核函数、reranking 稳定性和证据治理,让大模型系统更快、更稳、更不脆弱。

重点项目

本次重点展示的三个近期项目

它们分别对应长时运行开发 harness、可监督执行平台和 Rust 原生多 Agent 编排。

project thumbnail
长时运行 Agent 2026

codex-long-running-harness

面向长时运行应用开发的 Codex-first harness,强调 sprint 规划、评估闭环和 benchmark 快照。

  • 把开放式应用开发拆成可检查的 sprint。
  • 不走单次 prompting,而是显式规划器、生成器、评估器协同。
  • 保存 benchmark 快照,让进展可度量、可复现。
Codex Sprint planning Evaluator loop Benchmarks
project thumbnail
执行平台 2026

TaskCaptain

面向真实工作区的可监督 Agent 执行平台,强调任务状态透明、运行过程可见、控制权本地优先。

  • 让 Agent 在真实项目工作区中运行,并保留清晰任务状态。
  • 显式管理日志、工件和配置边界。
  • 把 AI 定位为可监督执行者,而不是仅会聊天的助手。
Local-first Agent runtime Task state Logs and artifacts
project thumbnail
Rust 编排 2026

crewai-rs

Rust 原生多 Agent 编排框架,强调类型化任务、确定性流程控制与更适合部署的运行时设计。

  • 不再依赖 Python 胶水代码,而是用 Rust 重建多 Agent 编排。
  • 用类型化运行时概念组织 agent、task、crew 和 flow。
  • 面向更低开销、更适合部署的 Agent 基础设施。
Rust Multi-agent Typed flows YAML blueprint

研究工程档案

支撑能力的既有研究工程作品

project thumbnail
RAG 治理 2025

OverSearchGuard

面向 Agentic RAG 的冲突感知证据裁剪层,兼顾鲁棒性与 token 成本。

  • 在生成前限制重复且低质量的证据刷屏。
  • 无需微调即可建模可靠度与新鲜度。
  • 同时提升准确率并显著压缩 token 开销。
Agentic RAG Evidence thinning 成本感知评测
project thumbnail
推理效率 2025

FlashToken

面向低延迟 LLM 系统的 Tokenizer 端前缀缓存,在可复用提示上可达 27x-37x 提速。

  • 在不改模型权重的前提下复用长提示前缀。
  • 同时支持固定前缀和 append-only 对话流程。
  • 保持 token 完全一致的同时获得大幅提速。
Tokenization Prefix caching Tiktoken
project thumbnail
可靠性 2025

OrderGuard

通过置换边缘化降低 LLM 判题、重排和工具选择对候选顺序的敏感性。

  • 在推理期把候选顺序视作干扰变量处理。
  • 结合低方差置换调度与自适应 early-stop。
  • 在 Qwen3 评测套件上带来稳定准确率增益。
LLM judging Reranking 置换不变性
project thumbnail
数值内核 2024

Turbo-Softmax

面向资源受限 CPU 与 MCU 的高精度快速 Softmax C 内核实现。

  • 使用面向 IEEE-754 的实现技巧适配通用 MCU。
  • 在数值精度与吞吐之间做平衡优化。
  • 体现了进入 Agent 系统之前的底层性能工程兴趣。
C MCU Softmax kernel

教育背景

教育经历

剑桥大学

预期 2026–2027 · 联合培养访问学生 · CSC 全额奖学金

电子科技大学

2024–2027 · 电子科学与技术硕士 · GPA 3.86/4.0 · A+

电子科技大学

2020–2024 · 电子科学与技术学士 · GPA 3.82/4.0 · A+

荣誉

荣誉与研究方向

IEEEXtreme

24 小时编程竞赛全球前 5%,2021。

荣誉学位

学院 Top 2,优秀毕业生。

研究主线

Agent 系统、评估基础设施、推理优化与可靠性导向的 RAG。