usehook - 前端码易

创建时间: 2026-03-24最后更新: 2026-04-13作者: yangbo(9e7b9455e)

1. 一条消息背后的延迟预算

在前面的文章中，我们讨论了内存调度、记忆架构、情绪状态机、Agent 编排管线——所有这些技术最终都要跑在真实的服务器上。跑在哪里，直接决定了用户体验的天花板。

考虑一个典型场景：用户发送一条消息后，系统要做这些事情：

用户能感知到的是首字节时间（TTFB）——从发送消息到看到第一个字出现的间隔。在流式输出的场景下，用户的心理预期大约是 1-2 秒。超过 3 秒就开始焦虑，超过 5 秒就想关掉页面。

LLM 推理本身就要吃掉 500-2000ms 的预算，这是我们无法压缩的硬成本。那剩下留给其他环节的时间就很紧了。

如果网络往返就占掉 300ms，整个链路就几乎没有余量了。

这就是部署架构的核心命题：在 LLM 推理时间不可控的前提下，如何把其他环节的延迟压到最低？答案是——把计算搬到离用户最近的地方

订阅后可阅读剩余内容

AI 电子伴侣企业级项目实战

已发布195节计划发布120节目标已完成163%