按规范类型、状态和 payload 分类查看
日活跃用户(DAU)与新增用户。
新用户活跃与老用户活跃。
新增用户 cohort 留存热力图。
判断次数、对话次数和人均 token。
已收款、已核销收入、AI token 成本、毛利趋势和成本占比。
各套餐贡献收入占比。
付费、ARPU、ARPPU、购买次数与收入核销。
可用性、错误预算消耗、P95/P99 延迟和 15 分钟错误窗口。
合并模型、路由、失败和服务器资源风险。
QPM / QPS / TPM 峰值和模型限额占用。
近 60 秒和 15 分钟窗口。
随时间范围切换分钟、小时或天级请求量、峰值 QPM、错误和 AI 成本。
失败类型、上游 HTTP 和慢请求线索。
按功能接口查看错误率和 P95。
CPU/内存长期趋势、网络 IO、磁盘 IO、事件循环和数据库池。
近 7 天健康度、payload 覆盖和规范调用类型
| 时间 | 类型 | 状态 | 用户 | Prompt | 耗时 |
|---|
运营关注用户状态、成本和关键路径。
| 用户 | 自律豆 | 今日用量 | Token / 成本 | 在线心跳 | 设备 | 最近活跃 |
|---|
查看订单、收入统计、支付链路和自律豆发放异常。
| 时间 / 订单 | 用户 | 渠道 | 自律豆商品 / 金额 | 状态 | 链路 | 设备 | 更新时间 |
|---|
把真实 trace 固化为可复跑样本;点击进入独立详情页。
| ID | 名称 | 类型 | 数据量 | 标准答案 | 已评测 | 通过率 | 来源 | 更新时间 | 操作 |
|---|
未选择评测集
| Case | 标准答案 | 图片 | 来源日志 | 操作 |
|---|
批量复跑评测集;点击进入独立详情页查看结果和 trace。
| 实验 | 评测集 | Prompt | 分数 / 结果 | 进度 | 操作 |
|---|
未选择实验
等待运行。
| Case | 预期 | Actual Output | 结果 | 来源 |
|---|
把实验输出转成预标注队列,人工逐条复核并保存最终标签。
| 任务 | 来源实验 | 进度 | 状态 | 更新时间 |
|---|
未选择任务
选择左侧样本开始标注。
正在加载图片...
Prompt key 是线上代码引用的稳定入口;版本创建不会自动影响生产。
加载中
加载中
| 启用 | App | 包名 / 前缀 | 来源 | 排名 | 操作 |
|---|
游戏榜每天固定从公开应用市场拉取并合并;已有禁用规则不会被重新启用。信息流列表可在这里人工补充或禁用。
加载中
OpenAPI 3.1 + Scalar 渲染,包含路径、参数、schema、鉴权和示例。
按需加载当前 case 的图片和变量。