阿里 Agent Infra 工程师面试准备
Alibaba Agent Infra Interview

阿里 Agent Infra 工程师面试准备

AI Infra · Agent Runtime · RAG / Memory · LLM Serving · Reliability Engineering

核心定位:把 Agent / LLM 应用做成稳定、可观测、可扩展、可恢复的平台基础设施。

1. 岗位画像

方向重点
Agent InfraAgent runtime、工具调用、任务编排、记忆系统、RAG、评测、权限、沙箱、可观测性。
稳定性工程高可用、超时、重试、幂等、限流、熔断、降级、监控告警、SLO、成本控制。

一句话表达:我关注如何把 Agent 从 demo 做成平台能力:任务可编排、状态可恢复、工具调用可审计、检索链路可观测、失败可降级、成本可控制。

2. 六块准备重点

模块必须掌握
Agent 系统设计Planner、Executor、Tool、Memory、Evaluator、Workflow 如何拆。
RAG / Memorychunk、embedding、ANN、metadata filter、rerank、cache、权限隔离。
LLM Servingprefill、decode、KV cache、batching、streaming、vLLM。
稳定性工程timeout、retry、idempotency、限流、熔断、降级、SLO。
分布式系统task queue、worker crash、checkpoint、workflow、Raft 概念。
工程基础Python/Go/Java、Redis、MySQL、MQ、Docker、K8s、Linux。

3. Agent 平台架构

User Request
  -> API Gateway
  -> Planner
  -> Task Scheduler
  -> Agent Runtime
  -> Tool Executor
  -> Memory / RAG
  -> Evaluator
  -> Response Aggregator
  • API Gateway:鉴权、限流、租户隔离。
  • Planner:把用户目标拆成步骤。
  • Scheduler:调度任务到 worker。
  • Agent Runtime:执行 Agent loop,管理上下文。
  • Tool Executor:工具调用、参数校验、沙箱、超时。
  • Memory / RAG:检索知识和历史状态。
  • Evaluator:质量评估、安全检查、终止判断。

4. Tool Calling 稳定性

  • 工具注册中心:schema、权限、timeout、retry 策略。
  • 参数校验:JSON Schema / Pydantic。
  • 权限控制:不同用户、租户、Agent 可用工具不同。
  • 超时控制:每个工具必须有 timeout。
  • 幂等设计:可重试工具必须有 request id。
  • 审计日志:记录谁在何时调用了什么工具。
  • 沙箱隔离:代码执行、文件操作、浏览器操作不能裸跑。
  • 结果截断:防止工具返回过大内容撑爆上下文。

5. RAG 与 Memory

Offline: document -> parse -> chunk -> embedding -> vector index
Online: query -> query embedding -> ANN search -> metadata filter -> rerank -> context packing -> LLM

Retrieval latency 拆解:

embedding latency
+ vector DB network latency
+ ANN search latency
+ metadata filter latency
+ fetch chunk latency
+ rerank latency
+ prompt assembly latency

Memory 设计字段:id、user_id、content、embedding、importance、timestamp、source、expires_at。难点是错误记忆污染、过期策略、去重合并、权限隔离和延迟控制。

6. LLM Serving

  • Prefill:处理 prompt,建立 KV cache。
  • Decode:一次生成一个 token,逐步追加 KV cache。
  • LLM 推理慢:权重大、decode 自回归、KV cache 占显存、小 batch GPU 利用率低。
  • vLLM:PagedAttention + continuous batching,降低 KV cache 碎片,提高并发。
  • Streaming:优化体感延迟和 time to first token,不减少总计算。

7. 稳定性工程

机制要点
TimeoutLLM、embedding、vector DB、tool、browser/code execution 都要有 timeout。
Retry指数退避;副作用操作不能盲目重试。
Idempotencyrequest id、幂等 key、去重表、状态机。
Rate Limit保护系统不被流量打爆。
Circuit Breaker依赖持续失败时暂时停止调用。
Fallbackrerank 挂了退化为 vector top-k,高级模型限流切便宜模型。
SLOAvailability、P95/P99、TTFT、task success rate、tool success rate、cost per task。

8. DeepScientist 项目包装

一句话:DeepScientist 是一个面向科研任务的 multi-agent workflow 系统,本质是 mini distributed system。它把复杂科研问题拆成检索、阅读、总结、写作、评估等可恢复步骤,并通过 RAG 和 memory 管理中间知识。

User Query
  -> Planner
  -> Search Workers
  -> PDF / Web Parser Workers
  -> Memory / Vector Store
  -> Draft Writer
  -> Critic / Evaluator
  -> Final Aggregator

稳定性点:tool timeout、search/parser retry、LLM fallback、中间结果 checkpoint、trace 记录耗时、缓存搜索和 embedding、外部 API 限流。

9. 高频系统设计题

  1. 设计一个企业内部 Agent 平台:多租户鉴权、tool registry、workflow runtime、memory/RAG、sandbox、observability、evaluation、model router、cost control。
  2. Agent 调工具超时怎么办:timeout、按工具类型 retry、幂等工具可重试、副作用工具不自动重试、记录 trace、返回降级结果。
  3. RAG 检索慢怎么排查:embedding、vector search、metadata filter、fetch chunk、rerank、context packing 分段看 P99。
  4. Agent 死循环怎么办:最大 step、最大 token budget、重复 action 检测、evaluator、重新规划、人工接管。
  5. 如何做 Agent 可观测性:request id、model、prompt hash、token usage、tool input/output、retrieval top-k、rerank scores、step latency、error stack。

10. 高频八股清单

方向问题
AI Infraprefill/decode、KV cache、vLLM、streaming、RAG vs fine-tuning、rerank、embedding cache。
稳定性timeout/retry、幂等、熔断限流、SLO/SLA/error budget、P99 latency、服务雪崩、灰度发布。
分布式MapReduce、Raft majority、leader 挂了怎么办、task queue 不丢任务、worker crash 恢复。
数据库/RAGB+ Tree vs LSM、ANN、HNSW、metadata filter 顺序、cache invalidation、LLM memory。

11. 7 天冲刺计划

天数主题输出
Day 1Agent Infra 架构企业 Agent 平台系统设计图
Day 2RAG / Vector DB / MemoryRAG 优化 checklist
Day 3LLM Serving一页 vLLM / KV cache 笔记
Day 4稳定性工程工具调用超时处理方案
Day 5分布式系统DeepScientist = mini distributed system 讲稿
Day 6项目包装3 分钟介绍 + 10 分钟深挖
Day 7模拟面试3 个系统设计题 + 20 个八股题

12. 自我介绍模板

面试官您好,我是古恩豪。我主要关注 AI Infra 和 Agent 系统工程,最近系统学习了深度学习框架、GPU 推理加速、分布式系统和数据库/RAG。项目上我做过一个 DeepScientist,多 Agent 科研工作流系统,里面涉及任务拆解、工具调用、RAG 检索、memory 管理、失败重试和中间状态持久化。我对如何把 Agent 从 demo 做成稳定、可观测、可恢复的平台能力比较感兴趣,也希望在 Agent Infra 和稳定性工程方向深入实践。

13. 反问问题

  1. 团队现在的 Agent Infra 更偏 runtime、tool platform,还是 serving / evaluation?
  2. 稳定性工程在 Agent 场景里最关注哪些指标?
  3. 目前 Agent 平台最大的挑战是 tool reliability、latency、cost,还是 observability?
  4. 实习生进去后会参与平台建设、稳定性治理,还是具体业务 Agent 落地?
  5. 团队技术栈主要是 Java、Go、Python,还是混合?

14. 最后总结

Agent Infra 工程师不是单纯的大模型应用开发,而是 AI 时代的平台工程岗位。核心能力是把 Agent 应用做成可靠系统:可编排、可恢复、可观测、可扩展、可降级、可控成本。

Agent Runtime
RAG / Memory
LLM Serving
Reliability Engineering