创建时间: 2026-03-24最后更新: 2026-04-13

1. 一条消息背后的延迟预算

在前面的文章中,我们讨论了内存调度、记忆架构、情绪状态机、Agent 编排管线——所有这些技术最终都要跑在真实的服务器上。跑在哪里,直接决定了用户体验的天花板。

考虑一个典型场景:用户发送一条消息后,系统要做这些事情:

环节耗时范围
网络往返(用户 ↔ 服务器)50 - 500ms
安全检查10 - 30ms
记忆检索(向量搜索 + 关键词匹配)30 - 100ms
情绪状态读取5 - 15ms
Prompt 组装5 - 10ms
LLM 推理(首 Token)500 - 2000ms
记忆写回20 - 50ms

用户能感知到的是首字节时间(TTFB)——从发送消息到看到第一个字出现的间隔。在流式输出的场景下,用户的心理预期大约是 1-2 秒。超过 3 秒就开始焦虑,超过 5 秒就想关掉页面。

LLM 推理本身就要吃掉 500-2000ms 的预算,这是我们无法压缩的硬成本。那剩下留给其他环节的时间就很紧了。

如果网络往返就占掉 300ms,整个链路就几乎没有余量了。

这就是部署架构的核心命题:在 LLM 推理时间不可控的前提下,如何把其他环节的延迟压到最低?答案是——把计算搬到离用户最近的地方

订阅后可阅读剩余内容
AI 电子伴侣企业级项目实战
已发布165计划发布120目标已完成138%