usehook - 前端码易

创建时间: 2026-03-24最后更新: 2026-04-13作者: yangbo(9e7b9455e)

1. LLM 延迟的本质与流式输出的必然性

第八篇文章分析管线延迟时，我们得出一个关键结论：LLM 生成占总延迟的 70-80%，是整条链路的绝对瓶颈。具体数字是 500-2000ms 才能拿到完整回复，这还只是中等长度的回答——如果 AI 伴侣要输出一段 200 字的安慰话，等待时间可能超过 3 秒。

但这里有一个容易被忽略的事实：LLM 不是「算完了一次性吐出结果」。它的工作方式是逐 token 生成——每隔几十毫秒产出一个 token，直到遇到结束标记。也就是说，第一个 token 可能在 200ms 内就准备好了，但如果你选择等全部 token 生成完再返回，用户就白白多等了 1-2 秒。

这就是流式输出的核心价值：把「等完整回复」变成「看着回复逐字出现」。

从用户感知角度看，两种模式的体验差距是断崖式的：

模式	首字节时间	用户感知
非流式（等完整回复）	1500-3000ms	"它在想什么？卡了吗？"
流式（逐 token 推送）	200-500ms	"它在说话了"

人的阅读速度大约是每秒 5-8 个汉字。LLM 的生成速度通常是每秒 30-80 个 token（约 15-40 个汉字）。这意味着LLM 的生成速度远快于人的阅读速度——流式输出时，用户几乎感觉不到等待，文字像「打字」一样自然出现。

订阅后可阅读剩余内容

AI 电子伴侣企业级项目实战

已发布195节计划发布120节目标已完成163%

专栏详情

1.AI 时代的学习心法 2.什么是 AI Agent 开发 3.从需求出发

人付费

登录后查看订阅状态