在前面的文章中,我们讨论了内存调度、记忆架构、情绪状态机、Agent 编排管线——所有这些技术最终都要跑在真实的服务器上。跑在哪里,直接决定了用户体验的天花板。
考虑一个典型场景:用户发送一条消息后,系统要做这些事情:
| 环节 | 耗时范围 |
|---|---|
| 网络往返(用户 ↔ 服务器) | 50 - 500ms |
| 安全检查 | 10 - 30ms |
| 记忆检索(向量搜索 + 关键词匹配) | 30 - 100ms |
| 情绪状态读取 | 5 - 15ms |
| Prompt 组装 | 5 - 10ms |
| LLM 推理(首 Token) | 500 - 2000ms |
| 记忆写回 | 20 - 50ms |
用户能感知到的是首字节时间(TTFB)——从发送消息到看到第一个字出现的间隔。在流式输出的场景下,用户的心理预期大约是 1-2 秒。超过 3 秒就开始焦虑,超过 5 秒就想关掉页面。
LLM 推理本身就要吃掉 500-2000ms 的预算,这是我们无法压缩的硬成本。那剩下留给其他环节的时间就很紧了。
如果网络往返就占掉 300ms,整个链路就几乎没有余量了。
这就是部署架构的核心命题:在 LLM 推理时间不可控的前提下,如何把其他环节的延迟压到最低?答案是——把计算搬到离用户最近的地方