压测工具为jmeter。
TTFT(Time to First Token)是大模型性能的核心指标之一,代表了用户从发送请求到收到第一个字符的等待时间。获取它主要有三种途径:
-
方法一:利用推理框架内置监控(推荐)
这是最直接、最准确的方法。当前主流的大模型推理框架,如 vLLM,已经原生支持导出 TTFT 指标。-
操作路径(以 vLLM 为例):vLLM 服务启动后,会通过
/metrics端点暴露 Prometheus 格式的监控数据,其中就包括vllm:time_to_first_token_seconds这个指标。你可以让 JMeter 在压测的同时,从该端点拉取数据,或者配合 Prometheus + Grafana 等监控工具进行实时采集和可视化。
-
进阶 Profiling:如果需要更细致的分析,vLLM 还提供了 Service Profiler 功能。你可以通过发送
start_profile和stop_profile请求,来精确记录包括 TTFT 在内的详细推理阶段耗时,并生成供 Chrome Tracing 分析的trace_view.json文件。
-
-
方法二:分析服务端应用日志
如果推理框架没有直接暴露 TTFT 指标,可以修改模型服务的日志配置,让它在每次请求的日志中打印出 TTFT。然后,在压测结束后,通过编写脚本(如 Python、awk)对所有日志进行解析和统计,计算出平均 TTFT、P95 TTFT 等关键分位数。 -
方法三:从客户端响应数据中计算(精度较低)
这种方法需要在 JMeter 的脚本中使用JSR223 后置处理器和 Groovy 语言。核心思路是记录请求发送的时刻,并从流式响应中解析出第一个非空 token 返回的时刻。但由于网络延迟、客户端处理开销等因素,这种方法计算出的 TTFT 会比服务端的真实值偏大,因此仅建议在没有其他手段时作为粗略估算。待补充jmeter代码...

1101

被折叠的 条评论
为什么被折叠?



