第八篇文章分析管线延迟时,我们得出一个关键结论:LLM 生成占总延迟的 70-80%,是整条链路的绝对瓶颈。具体数字是 500-2000ms 才能拿到完整回复,这还只是中等长度的回答——如果 AI 伴侣要输出一段 200 字的安慰话,等待时间可能超过 3 秒。
但这里有一个容易被忽略的事实:LLM 不是「算完了一次性吐出结果」。它的工作方式是逐 token 生成——每隔几十毫秒产出一个 token,直到遇到结束标记。也就是说,第一个 token 可能在 200ms 内就准备好了,但如果你选择等全部 token 生成完再返回,用户就白白多等了 1-2 秒。
这就是流式输出的核心价值:把「等完整回复」变成「看着回复逐字出现」。
从用户感知角度看,两种模式的体验差距是断崖式的:
| 模式 | 首字节时间 | 用户感知 |
|---|---|---|
| 非流式(等完整回复) | 1500-3000ms | "它在想什么?卡了吗?" |
| 流式(逐 token 推送) | 200-500ms | "它在说话了" |
人的阅读速度大约是每秒 5-8 个汉字。LLM 的生成速度通常是每秒 30-80 个 token(约 15-40 个汉字)。这意味着LLM 的生成速度远快于人的阅读速度——流式输出时,用户几乎感觉不到等待,文字像「打字」一样自然出现。