创建时间: 2026-03-24最后更新: 2026-04-13

1. LLM 延迟的本质与流式输出的必然性

第八篇文章分析管线延迟时,我们得出一个关键结论:LLM 生成占总延迟的 70-80%,是整条链路的绝对瓶颈。具体数字是 500-2000ms 才能拿到完整回复,这还只是中等长度的回答——如果 AI 伴侣要输出一段 200 字的安慰话,等待时间可能超过 3 秒。

但这里有一个容易被忽略的事实:LLM 不是「算完了一次性吐出结果」。它的工作方式是逐 token 生成——每隔几十毫秒产出一个 token,直到遇到结束标记。也就是说,第一个 token 可能在 200ms 内就准备好了,但如果你选择等全部 token 生成完再返回,用户就白白多等了 1-2 秒。

这就是流式输出的核心价值:把「等完整回复」变成「看着回复逐字出现」

从用户感知角度看,两种模式的体验差距是断崖式的:

模式首字节时间用户感知
非流式(等完整回复)1500-3000ms"它在想什么?卡了吗?"
流式(逐 token 推送)200-500ms"它在说话了"

人的阅读速度大约是每秒 5-8 个汉字。LLM 的生成速度通常是每秒 30-80 个 token(约 15-40 个汉字)。这意味着LLM 的生成速度远快于人的阅读速度——流式输出时,用户几乎感觉不到等待,文字像「打字」一样自然出现。

订阅后可阅读剩余内容
AI 电子伴侣企业级项目实战
已发布165计划发布120目标已完成138%