阿里 Agent Infra 工程师面试准备

AI Infra · Agent Runtime · RAG / Memory · LLM Serving · Reliability Engineering

核心定位：把 Agent / LLM 应用做成稳定、可观测、可扩展、可恢复的平台基础设施。

1. 岗位画像

方向	重点
Agent Infra	Agent runtime、工具调用、任务编排、记忆系统、RAG、评测、权限、沙箱、可观测性。
稳定性工程	高可用、超时、重试、幂等、限流、熔断、降级、监控告警、SLO、成本控制。

一句话表达：我关注如何把 Agent 从 demo 做成平台能力：任务可编排、状态可恢复、工具调用可审计、检索链路可观测、失败可降级、成本可控制。

2. 六块准备重点

模块	必须掌握
Agent 系统设计	Planner、Executor、Tool、Memory、Evaluator、Workflow 如何拆。
RAG / Memory	chunk、embedding、ANN、metadata filter、rerank、cache、权限隔离。
LLM Serving	prefill、decode、KV cache、batching、streaming、vLLM。
稳定性工程	timeout、retry、idempotency、限流、熔断、降级、SLO。
分布式系统	task queue、worker crash、checkpoint、workflow、Raft 概念。
工程基础	Python/Go/Java、Redis、MySQL、MQ、Docker、K8s、Linux。

3. Agent 平台架构

User Request
  -> API Gateway
  -> Planner
  -> Task Scheduler
  -> Agent Runtime
  -> Tool Executor
  -> Memory / RAG
  -> Evaluator
  -> Response Aggregator

API Gateway：鉴权、限流、租户隔离。
Planner：把用户目标拆成步骤。
Scheduler：调度任务到 worker。
Agent Runtime：执行 Agent loop，管理上下文。
Tool Executor：工具调用、参数校验、沙箱、超时。
Memory / RAG：检索知识和历史状态。
Evaluator：质量评估、安全检查、终止判断。

4. Tool Calling 稳定性

工具注册中心：schema、权限、timeout、retry 策略。
参数校验：JSON Schema / Pydantic。
权限控制：不同用户、租户、Agent 可用工具不同。
超时控制：每个工具必须有 timeout。
幂等设计：可重试工具必须有 request id。
审计日志：记录谁在何时调用了什么工具。
沙箱隔离：代码执行、文件操作、浏览器操作不能裸跑。
结果截断：防止工具返回过大内容撑爆上下文。

5. RAG 与 Memory

Offline: document -> parse -> chunk -> embedding -> vector index
Online: query -> query embedding -> ANN search -> metadata filter -> rerank -> context packing -> LLM

Retrieval latency 拆解：

embedding latency
+ vector DB network latency
+ ANN search latency
+ metadata filter latency
+ fetch chunk latency
+ rerank latency
+ prompt assembly latency

Memory 设计字段：id、user_id、content、embedding、importance、timestamp、source、expires_at。难点是错误记忆污染、过期策略、去重合并、权限隔离和延迟控制。

6. LLM Serving

Prefill：处理 prompt，建立 KV cache。
Decode：一次生成一个 token，逐步追加 KV cache。
LLM 推理慢：权重大、decode 自回归、KV cache 占显存、小 batch GPU 利用率低。
vLLM：PagedAttention + continuous batching，降低 KV cache 碎片，提高并发。
Streaming：优化体感延迟和 time to first token，不减少总计算。

7. 稳定性工程

机制	要点
Timeout	LLM、embedding、vector DB、tool、browser/code execution 都要有 timeout。
Retry	指数退避；副作用操作不能盲目重试。
Idempotency	request id、幂等 key、去重表、状态机。
Rate Limit	保护系统不被流量打爆。
Circuit Breaker	依赖持续失败时暂时停止调用。
Fallback	rerank 挂了退化为 vector top-k，高级模型限流切便宜模型。
SLO	Availability、P95/P99、TTFT、task success rate、tool success rate、cost per task。

8. DeepScientist 项目包装

一句话：DeepScientist 是一个面向科研任务的 multi-agent workflow 系统，本质是 mini distributed system。它把复杂科研问题拆成检索、阅读、总结、写作、评估等可恢复步骤，并通过 RAG 和 memory 管理中间知识。

User Query
  -> Planner
  -> Search Workers
  -> PDF / Web Parser Workers
  -> Memory / Vector Store
  -> Draft Writer
  -> Critic / Evaluator
  -> Final Aggregator

稳定性点：tool timeout、search/parser retry、LLM fallback、中间结果 checkpoint、trace 记录耗时、缓存搜索和 embedding、外部 API 限流。

9. 高频系统设计题

设计一个企业内部 Agent 平台：多租户鉴权、tool registry、workflow runtime、memory/RAG、sandbox、observability、evaluation、model router、cost control。
Agent 调工具超时怎么办：timeout、按工具类型 retry、幂等工具可重试、副作用工具不自动重试、记录 trace、返回降级结果。
RAG 检索慢怎么排查：embedding、vector search、metadata filter、fetch chunk、rerank、context packing 分段看 P99。
Agent 死循环怎么办：最大 step、最大 token budget、重复 action 检测、evaluator、重新规划、人工接管。
如何做 Agent 可观测性：request id、model、prompt hash、token usage、tool input/output、retrieval top-k、rerank scores、step latency、error stack。

10. 高频八股清单

方向	问题
AI Infra	prefill/decode、KV cache、vLLM、streaming、RAG vs fine-tuning、rerank、embedding cache。
稳定性	timeout/retry、幂等、熔断限流、SLO/SLA/error budget、P99 latency、服务雪崩、灰度发布。
分布式	MapReduce、Raft majority、leader 挂了怎么办、task queue 不丢任务、worker crash 恢复。
数据库/RAG	B+ Tree vs LSM、ANN、HNSW、metadata filter 顺序、cache invalidation、LLM memory。

11. 7 天冲刺计划

天数	主题	输出
Day 1	Agent Infra 架构	企业 Agent 平台系统设计图
Day 2	RAG / Vector DB / Memory	RAG 优化 checklist
Day 3	LLM Serving	一页 vLLM / KV cache 笔记
Day 4	稳定性工程	工具调用超时处理方案
Day 5	分布式系统	DeepScientist = mini distributed system 讲稿
Day 6	项目包装	3 分钟介绍 + 10 分钟深挖
Day 7	模拟面试	3 个系统设计题 + 20 个八股题

12. 自我介绍模板

面试官您好，我是古恩豪。我主要关注 AI Infra 和 Agent 系统工程，最近系统学习了深度学习框架、GPU 推理加速、分布式系统和数据库/RAG。项目上我做过一个 DeepScientist，多 Agent 科研工作流系统，里面涉及任务拆解、工具调用、RAG 检索、memory 管理、失败重试和中间状态持久化。我对如何把 Agent 从 demo 做成稳定、可观测、可恢复的平台能力比较感兴趣，也希望在 Agent Infra 和稳定性工程方向深入实践。

13. 反问问题

团队现在的 Agent Infra 更偏 runtime、tool platform，还是 serving / evaluation？
稳定性工程在 Agent 场景里最关注哪些指标？
目前 Agent 平台最大的挑战是 tool reliability、latency、cost，还是 observability？
实习生进去后会参与平台建设、稳定性治理，还是具体业务 Agent 落地？
团队技术栈主要是 Java、Go、Python，还是混合？

14. 最后总结

Agent Infra 工程师不是单纯的大模型应用开发，而是 AI 时代的平台工程岗位。核心能力是把 Agent 应用做成可靠系统：可编排、可恢复、可观测、可扩展、可降级、可控成本。

Agent Runtime
RAG / Memory
LLM Serving
Reliability Engineering