压测大模型时如何获取TTFT？

最新推荐文章于 2026-06-17 20:50:25 发布

原创最新推荐文章于 2026-06-17 20:50:25 发布 · 83 阅读

·

1

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

标签

#jmeter #TTFT

CoPaw

内置vllm部署的Qwen3-4B-Instruct-2507模型，agentscope开源的类似openclaw个人助手。

压测工具为jmeter。

TTFT（Time to First Token）是大模型性能的核心指标之一，代表了用户从发送请求到收到第一个字符的等待时间。获取它主要有三种途径：

方法一：利用推理框架内置监控（推荐）
这是最直接、最准确的方法。当前主流的大模型推理框架，如 vLLM，已经原生支持导出 TTFT 指标。
- 操作路径（以 vLLM 为例）：vLLM 服务启动后，会通过 /metrics 端点暴露 Prometheus 格式的监控数据，其中就包括 vllm:time_to_first_token_seconds 这个指标。你可以让 JMeter 在压测的同时，从该端点拉取数据，或者配合 Prometheus + Grafana 等监控工具进行实时采集和可视化。
- 进阶 Profiling：如果需要更细致的分析，vLLM 还提供了 Service Profiler 功能。你可以通过发送 start_profile 和 stop_profile 请求，来精确记录包括 TTFT 在内的详细推理阶段耗时，并生成供 Chrome Tracing 分析的 trace_view.json 文件。
方法二：分析服务端应用日志
如果推理框架没有直接暴露 TTFT 指标，可以修改模型服务的日志配置，让它在每次请求的日志中打印出 TTFT。然后，在压测结束后，通过编写脚本（如 Python、awk）对所有日志进行解析和统计，计算出平均 TTFT、P95 TTFT 等关键分位数。
方法三：从客户端响应数据中计算（精度较低）
这种方法需要在 JMeter 的脚本中使用 JSR223 后置处理器 和 Groovy 语言。核心思路是记录请求发送的时刻，并从流式响应中解析出第一个非空 token 返回的时刻。但由于网络延迟、客户端处理开销等因素，这种方法计算出的 TTFT 会比服务端的真实值偏大，因此仅建议在没有其他手段时作为粗略估算。待补充jmeter代码...

您可能感兴趣的与本文相关的镜像

CoPaw

CoPaw

AI应用

Qwen

Qwen3

内置vllm部署的Qwen3-4B-Instruct-2507模型，agentscope开源的类似openclaw个人助手。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。