code deep_
所有专栏
最近更新
爆锤面试官
创建时间: 2026-03-24
最后更新: 2026-04-13
作者: yangbo
(9e7b9455e)
1. Trace 解决单次排查,Metrics 解决整体诊断
Trace 擅长回答:「这一次请求为什么出问题?」
但如果你想回答下面这些问题,光有 Trace 不够:
这周整体延迟是不是变慢了
新模型上线之后,记忆命中率有没有下降
情绪系统是不是突然变得过于敏感
Token 成本为什么这个月异常上升
这些问题需要 Metrics,也就是指标体系
订阅后可阅读剩余内容
AI 电子伴侣企业级项目实战
已发布
165
节
计划发布
120
节
目标已完成
138%
专栏详情
1.
AI 时代的学习心法
2.
什么是 AI Agent 开发
3.
从需求出发
0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
9
0
1
2
3
4
5
6
7
8
9
人付费
登录后查看订阅状态
1. Trace 解决单次排查,Metrics 解决整体诊断
2. 四类核心指标
2.1 延迟指标
2.2 检索质量指标
2.3 情绪系统指标
2.4 成本指标
3. 指标采集实现:每次请求只提取关键数值
4. 线上排查:从“回复不对”到定位根因
4.1 第一步:先找到这条消息对应的 Trace
4.2 第二步:按固定顺序检查关键节点
4.3 第三步:把现象映射回根因层
5. 三种最常见的故障模式
5.1 记忆“丢失”
5.2 情绪“跳变”
5.3 延迟突增
6. 总结
Previous
Workers 下的 Tracing 实现
Next
影子模式与灰度验证
0
0
首页
顶部
目录
200 元 · 订阅
订阅