从零构建大模型中转API：统一接口、负载均衡与生产级部署指南

最新推荐文章于 2026-06-25 10:28:43 发布

原创最新推荐文章于 2026-06-25 10:28:43 发布 · 409 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#大模型中转API #API网关 #负载均衡

1. 项目概述：为什么需要大模型中转API？

最近在折腾AI应用开发的朋友，估计都绕不开一个词： 中转API 。你可能已经拿到了OpenAI的API Key，或者正在使用Claude、DeepSeek、智谱等大模型的服务，但直接调用官方接口时，总会遇到一些“水土不服”的问题。比如，网络连接不稳定导致请求超时，官方接口调用频率限制太死，或者单纯想把多个不同厂商的模型API统一成一个标准格式来管理。这时候，一个设计良好的中转API服务就成了刚需。

简单来说， 中转API 就像是一个智能调度中心。你的应用不再直接呼叫远在海外的OpenAI服务器，而是把请求发给你自己搭建或使用的这个“中转站”。由它来帮你处理身份验证、请求转发、格式转换、错误重试、负载均衡甚至费用统计等一系列繁琐工作。对于开发者而言，这意味着更稳定的连接、更灵活的策略以及更低的集成复杂度。尤其是当你的应用需要同时对接多个大模型供应商（比如OpenAI GPT-4、Claude 3、国内的一些大模型）时，一个统一的中转层能让你用一套代码兼容所有，后端切换模型供应商就像换一个配置参数那么简单。

这个项目的核心，就是构建一个这样的中转服务，它兼容OpenAI的API格式，让你现有的、基于OpenAI SDK（如 openai Python库）开发的代码几乎无需修改，就能通过这个中转服务去调用实际的大模型。无论是个人项目快速验证想法，还是企业级应用需要高可用和审计，自己掌控一个中转API都是性价比极高的选择。

2. 核心架构与设计思路拆解

要搭建一个稳定可靠的中转API，不能只做一个简单的“传话筒”。我们需要从架构层面考虑几个关键问题： 稳定性、可扩展性、安全性和可观测性 。下面这张图描绘了一个典型的中转服务核心架构：

[客户端 App] --> [中转API服务] --> [多个大模型供应商]
       ↑                ↑                  ↑
    (统一格式)    (认证/路由/日志)    (格式转换/适配)

2.1 为什么选择兼容OpenAI格式？

OpenAI的Chat Completion API（即 /v1/chat/completions 端点）事实上已经成为行业标准。绝大多数开源项目、SDK和客户端库（如LangChain、LlamaIndex）都优先支持它。因此，让我们的中转API在请求和响应格式上与OpenAI保持一致，能获得最大的生态兼容性。你的前端、你的Agent框架，都可以无缝接入。

这意味着，你的中转服务需要暴露类似的接口，例如：

POST /v1/chat/completions ：用于对话补全。
POST /v1/embeddings ：用于生成嵌入向量。
GET /v1/models ：用于列出可用的模型。

当收到一个请求时，服务内部会根据配置，将请求路由到真正的后端服务，如OpenAI官方API、Azure OpenAI、或者任何一个提供了兼容接口的模型服务（如 vLLM 部署的私有模型、 Ollama 本地模型）。

2.2 核心功能模块设计

一个完整的中转服务通常包含以下模块：

API网关层 ：接收客户端请求，进行初步的认证（如校验API Key）、限流和日志记录。
路由与负载均衡器 ：这是大脑。根据请求中的模型名称（如 gpt-4 ）、配置的策略（如轮询、最低延迟）或用户指定的供应商，决定将请求转发给哪个后端。
供应商适配器 ：不同厂商的API细节有差异。适配器负责将标准的OpenAI格式请求，转换为目标供应商所需的格式，并对其响应进行反向转换，统一成OpenAI格式返回。例如，Claude的messages结构、智谱的请求参数都需要做细微调整。
故障转移与重试机制 ：当某个后端服务失败或超时时，自动切换到备用节点或进行重试，保障请求成功率。
监控与统计 ：记录每一次调用的耗时、消耗的Token数、费用（如果涉及）以及成功/失败状态，便于后期分析和计费。

注意：在设计之初就要考虑 无状态 。服务本身不应该保存会话状态，所有状态应由客户端通过 messages 历史传递或由后端大模型维护。这样便于水平扩展。

3. 技术选型与核心组件实现

市面上已经有一些优秀的开源项目可以实现中转功能，比如 LocalAI 、 OpenAI-Forward 、 LLMProxy 等。但为了彻底理解原理并实现高度定制化，我们选择从零开始，使用 Python + FastAPI 来构建核心服务。FastAPI以其高性能、异步支持和自动生成API文档的特性，非常适合这类API中间件。

3.1 基础环境与依赖准备

首先，确保你的开发环境已就绪。我们需要Python 3.8+，并使用 pip 安装核心库。

# 创建项目目录并进入
mkdir openai-proxy && cd openai-proxy
# 创建虚拟环境（推荐）
python -m venv venv
source venv/bin/activate  # Linux/Mac
# venv\Scripts\activate  # Windows
# 安装核心依赖
pip install fastapi uvicorn httpx pydantic-settings python-dotenv

FastAPI ：我们的Web框架。
Uvicorn ：ASGI服务器，用于运行FastAPI应用。
Httpx ：一个现代化的异步HTTP客户端，用于向后端模型服务发起请求。它比传统的 requests 库更高效，尤其适合高并发场景。
Pydantic-settings ：用于管理配置，支持从环境变量、 .env 文件读取。
Python-dotenv ：方便加载 .env 文件。

接下来，创建项目的基本结构：

openai-proxy/
├── app/
│   ├── __init__.py
│   ├── main.py          # FastAPI应用入口
│   ├── config.py        # 配置文件
│   ├── routers/         # 路由模块
│   │   ├── __init__.py
│   │   └── chat.py      # 处理 /v1/chat/completions
│   ├── core/            # 核心逻辑
│   │   ├── __init__.py
│   │   ├── auth.py      # 认证逻辑
│   │   ├── router.py    # 路由与负载均衡逻辑
│   │   └── adapters.py  # 供应商适配器
│   └── models/          # 数据模型
│       ├── __init__.py
│       └── openai.py    # OpenAI兼容的请求/响应模型
├── .env.example         # 环境变量示例
├── requirements.txt     # 依赖列表
└── README.md

3.2 定义数据模型：保持与OpenAI兼容

在 app/models/openai.py 中，我们使用Pydantic定义与OpenAI API完全兼容的请求和响应模型。这是确保兼容性的关键。

from pydantic import BaseModel, Field
from typing import List, Optional, Literal, Union

class ChatMessage(BaseModel):
    role: Literal["system", "user", "assistant", "function", "tool"]
    content: Optional[str] = None
    name: Optional[str] = None
    # 其他可能的字段如 tool_calls, function_call 可根据需要添加

class ChatCompletionRequest(BaseModel):
    model: str
    messages: List[ChatMessage]
    temperature: Optional[float] = 0.7
    top_p: Optional[float] = 1.0
    max_tokens: Optional[int] = None
    stream: Optional[bool] = False
    # ... 其他OpenAI支持的参数，如 presence_penalty, frequency_penalty 等

class ChatCompletionChoice(BaseModel):
    index: int
    message: ChatMessage
    finish_reason: Optional[str] = None

class ChatCompletionUsage(BaseModel):
    prompt_tokens: int
    completion_tokens: int
    total_tokens: int

class ChatCompletionResponse(BaseModel):
    id: str
    object: str = "chat.completion"
    created: int
    model: str
    choices: List[ChatCompletionChoice]
    usage: ChatCompletionUsage

定义这些模型有两个巨大好处：一是FastAPI能自动进行请求验证和生成API文档；二是我们在内部处理数据时有了强类型约束，减少错误。

3.3 实现核心路由与转发逻辑

现在我们来构建最核心的部分：接收请求，并转发到正确的后端。我们在 app/core/router.py 中实现一个路由管理器。

首先，在 app/config.py 中定义后端供应商的配置：

from pydantic_settings import BaseSettings
from typing import List, Dict, Any

class Settings(BaseSettings):
    # 启用的后端供应商列表
    backends: List[Dict[str, Any]] = [
        {
            "name": "openai-official",
            "type": "openai",
            "base_url": "https://api.openai.com/v1",
            "api_key": "${OPENAI_API_KEY}", # 从环境变量读取
            "models": ["gpt-4", "gpt-3.5-turbo"], # 该后端支持的模型
            "priority": 1,
            "enabled": True
        },
        {
            "name": "azure-openai",
            "type": "azure",
            "base_url": "https://your-resource.openai.azure.com/openai/deployments",
            "api_key": "${AZURE_OPENAI_KEY}",
            "api_version": "2024-02-15-preview",
            "deployment_id": "gpt-35-turbo", # Azure的部署名
            "models": ["gpt-35-turbo"],
            "priority": 2,
            "enabled": True
        },
        {
            "name": "local-llama",
            "type": "openai_compatible", # 兼容OpenAI格式的自部署模型
            "base_url": "http://localhost:8000/v1", # 例如本地部署的vLLM或Ollama
            "api_key": "no-key-required",
            "models": ["llama-3-8b"],
            "priority": 3,
            "enabled": True
        }
    ]
    # 中转服务自己的认证密钥
    proxy_api_keys: List[str] = ["your-proxy-secret-key-here"]
    # 请求超时时间（秒）
    request_timeout: int = 60

settings = Settings()

实操心得 ：将配置结构化并支持从环境变量读取（使用 ${VAR} 语法），是保证安全性和灵活性的最佳实践。敏感信息如API Key绝不能硬编码在代码中。

接下来，实现路由逻辑。路由器的核心职责是：对于一个给定的请求（特别是其中的 model 字段），选择一个最合适的、可用的后端。

# app/core/router.py
import random
from typing import Dict, Any, List
from app.config import settings

class BackendRouter:
    def __init__(self):
        self.backends = [b for b in settings.backends if b.get("enabled", True)]
        # 按优先级排序
        self.backends.sort(key=lambda x: x.get("priority", 99))

    def select_backend(self, model: str) -> Dict[str, Any]:
        """根据请求的模型名称选择后端"""
        # 策略1: 精确匹配模型名
        for backend in self.backends:
            if model in backend.get("models", []):
                return backend
        # 策略2: 模糊匹配或默认后端（例如，所有未知模型都路由到某个后端）
        # 这里我们简单地返回优先级最高的、启用的后端
        for backend in self.backends:
            return backend
        raise ValueError("No available backend configured")

    def get_backend_by_name(self, name: str) -> Dict[str, Any]:
        """根据后端名称获取配置"""
        for backend in self.backends:
            if backend["name"] == name:
                return backend
        raise ValueError(f"Backend {name} not found")

这个路由器目前实现了最简单的“优先级+模型匹配”策略。在生产环境中，你可能会需要更复杂的策略，比如基于后端健康检查、实时延迟或负载情况来动态选择。

4. 构建供应商适配器：统一接口的关键

不同的后端供应商，其API细节可能不同。适配器模式（Adapter Pattern）在这里大显身手。每个适配器负责与一种特定类型的后端通信。

我们在 app/core/adapters.py 中定义一个基类和具体实现。

# app/core/adapters.py
import httpx
import json
import time
from typing import Dict, Any, AsyncGenerator
from app.models.openai import ChatCompletionRequest, ChatCompletionResponse

class BackendAdapter:
    """所有后端适配器的基类"""
    def __init__(self, backend_config: Dict[str, Any]):
        self.config = backend_config
        self.client = httpx.AsyncClient(
            base_url=self.config.get("base_url"),
            timeout=self.config.get("timeout", 30)
        )
        # 设置认证头
        api_key = self.config.get("api_key")
        if api_key and api_key != "no-key-required":
            self.client.headers.update({"Authorization": f"Bearer {api_key}"})

    async def chat_completion(self, request: ChatCompletionRequest) -> ChatCompletionResponse:
        """发送聊天补全请求，返回标准化响应"""
        raise NotImplementedError

    async def close(self):
        await self.client.aclose()

class OpenAIAdapter(BackendAdapter):
    """OpenAI官方API适配器"""
    async def chat_completion(self, request: ChatCompletionRequest) -> ChatCompletionResponse:
        # OpenAI官方接口路径
        url = "/chat/completions"
        # 将Pydantic模型转为字典，并排除None值
        payload = request.model_dump(exclude_none=True)
        
        # 如果是流式响应，需要特殊处理
        if request.stream:
            # 这里简化处理，实际流式响应更复杂
            async with self.client.stream("POST", url, json=payload) as response:
                response.raise_for_status()
                # 处理流式数据，这里省略详细代码
                pass
        else:
            # 非流式请求
            resp = await self.client.post(url, json=payload)
            resp.raise_for_status()
            resp_data = resp.json()
            # 将响应数据转换为我们的标准模型
            return ChatCompletionResponse(**resp_data)

class AzureOpenAIAdapter(BackendAdapter):
    """Azure OpenAI适配器"""
    async def chat_completion(self, request: ChatCompletionRequest) -> ChatCompletionResponse:
        # Azure OpenAI的URL格式不同
        deployment = self.config.get("deployment_id")
        api_version = self.config.get("api_version", "2024-02-15-preview")
        url = f"/deployments/{deployment}/chat/completions?api-version={api_version}"
        
        # Azure的请求体与OpenAI基本一致，但有些字段名可能不同，需要转换
        # 这里假设完全兼容，实际可能需要微调
        payload = request.model_dump(exclude_none=True)
        # Azure不需要在请求体中传model参数
        payload.pop("model", None)
        
        resp = await self.client.post(url, json=payload)
        resp.raise_for_status()
        resp_data = resp.json()
        # 在响应中补全model字段，保持与OpenAI格式一致
        resp_data["model"] = request.model
        return ChatCompletionResponse(**resp_data)

class OpenAICompatibleAdapter(BackendAdapter):
    """通用OpenAI兼容接口适配器（用于vLLM, Ollama等）"""
    async def chat_completion(self, request: ChatCompletionRequest) -> ChatCompletionResponse:
        # 假设完全兼容OpenAI格式
        url = "/chat/completions"
        payload = request.model_dump(exclude_none=True)
        resp = await self.client.post(url, json=payload)
        resp.raise_for_status()
        resp_data = resp.json()
        return ChatCompletionResponse(**resp_data)

# 适配器工厂
def get_adapter(backend_config: Dict[str, Any]) -> BackendAdapter:
    adapter_type = backend_config.get("type", "openai")
    if adapter_type == "openai":
        return OpenAIAdapter(backend_config)
    elif adapter_type == "azure":
        return AzureOpenAIAdapter(backend_config)
    elif adapter_type == "openai_compatible":
        return OpenAICompatibleAdapter(backend_config)
    else:
        raise ValueError(f"Unsupported adapter type: {adapter_type}")

注意事项 ：适配器的实现需要仔细阅读目标供应商的API文档。例如，Claude API的请求体结构、智谱AI的响应格式都可能与OpenAI有细微差别。一个健壮的适配器应该能处理这些差异，并进行恰当的转换，对上游客户端透明。

5. 实现API端点与认证

现在，我们将所有组件串联起来，在 app/routers/chat.py 中创建真正的 /v1/chat/completions 端点。

# app/routers/chat.py
from fastapi import APIRouter, Depends, HTTPException, Header
from typing import Optional
import uuid
import time

from app.models.openai import ChatCompletionRequest, ChatCompletionResponse
from app.core.router import BackendRouter
from app.core.adapters import get_adapter
from app.config import settings

router = APIRouter()
backend_router = BackendRouter()

# 简单的API Key认证依赖
async def verify_api_key(authorization: Optional[str] = Header(None)):
    if not authorization:
        raise HTTPException(status_code=401, detail="Missing Authorization header")
    # 期望格式：Bearer your-proxy-api-key
    try:
        scheme, token = authorization.split()
        if scheme.lower() != "bearer":
            raise HTTPException(status_code=401, detail="Invalid authentication scheme")
        if token not in settings.proxy_api_keys:
            raise HTTPException(status_code=401, detail="Invalid API key")
        return token
    except ValueError:
        raise HTTPException(status_code=401, detail="Invalid Authorization header format")

@router.post("/v1/chat/completions", response_model=ChatCompletionResponse)
async def create_chat_completion(
    request: ChatCompletionRequest,
    api_key: str = Depends(verify_api_key)  # 依赖注入认证
):
    start_time = time.time()
    
    # 1. 根据请求中的模型选择后端
    try:
        backend_config = backend_router.select_backend(request.model)
    except ValueError as e:
        raise HTTPException(status_code=400, detail=f"No available backend for model: {request.model}")
    
    # 2. 获取对应的适配器
    adapter = get_adapter(backend_config)
    
    # 3. 转发请求并获取响应
    try:
        response = await adapter.chat_completion(request)
    except httpx.HTTPStatusError as e:
        # 捕获后端HTTP错误，并向上游传递有意义的错误信息
        error_detail = f"Backend ({backend_config['name']}) error: {e.response.status_code} - {e.response.text}"
        raise HTTPException(status_code=502, detail=error_detail) # 502 Bad Gateway
    except httpx.RequestError as e:
        # 网络连接错误
        raise HTTPException(status_code=503, detail=f"Service unavailable: {str(e)}")
    finally:
        await adapter.close()
    
    # 4. 可以在这里添加一些中间件逻辑，比如日志记录、用量统计
    # 生成一个唯一的请求ID
    request_id = str(uuid.uuid4())
    elapsed = time.time() - start_time
    
    # 模拟记录日志（实际应写入数据库或日志文件）
    print(f"[{request_id}] Model: {request.model}, Backend: {backend_config['name']}, "
          f"Tokens: {response.usage.total_tokens}, Time: {elapsed:.2f}s")
    
    # 5. 返回标准化响应
    return response

最后，在 app/main.py 中挂载路由并启动应用。

# app/main.py
from fastapi import FastAPI
from app.routers import chat

app = FastAPI(title="OpenAI Proxy API", version="1.0.0")

# 挂载路由
app.include_router(chat.router, prefix="") # 路由已经在chat.py中定义了/v1前缀

@app.get("/health")
async def health_check():
    return {"status": "healthy"}

if __name__ == "__main__":
    import uvicorn
    uvicorn.run(app, host="0.0.0.0", port=8000)

现在，一个最基本的中转API服务就搭建完成了。你可以通过运行 python app/main.py 启动服务，然后使用任何兼容OpenAI的客户端（如 openai Python库，将 base_url 设置为 http://localhost:8000/v1 ）来测试它。

6. 高级功能与生产级优化

上面的代码实现了一个可用的最小版本。但要用于生产环境，还需要考虑更多。

6.1 实现流式响应（Streaming）

大模型生成文本时，流式响应能极大提升用户体验。实现它需要处理Server-Sent Events (SSE)。FastAPI对SSE有很好的支持。

我们需要修改适配器和路由，以支持流式传输。关键在于，我们不能一次性等待后端所有数据返回再转发，而需要以“流”的方式，从后端读取一块数据，就立即转发给客户端一块。

# 在 adapters.py 的 BackendAdapter 基类中添加流式方法
async def chat_completion_stream(self, request: ChatCompletionRequest) -> AsyncGenerator[str, None]:
    """流式聊天补全，生成标准化的SSE数据块"""
    raise NotImplementedError

# 在 OpenAIAdapter 中实现
class OpenAIAdapter(BackendAdapter):
    async def chat_completion_stream(self, request: ChatCompletionRequest) -> AsyncGenerator[str, None]:
        url = "/chat/completions"
        payload = request.model_dump(exclude_none=True)
        payload["stream"] = True # 确保后端知道是流式请求
        
        async with self.client.stream("POST", url, json=payload) as response:
            response.raise_for_status()
            async for chunk in response.aiter_lines():
                if chunk:
                    # OpenAI的流式响应是以 "data: " 开头的行
                    if chunk.startswith("data: "):
                        data = chunk[6:]
                        if data.strip() == "[DONE]":
                            yield f"data: {data}\n\n"
                        else:
                            # 这里可以添加逻辑来转换或验证数据格式
                            yield f"data: {data}\n\n"

在路由端点中，我们需要返回一个 StreamingResponse 。

# 在 chat.py 中添加流式端点
from fastapi.responses import StreamingResponse

@router.post("/v1/chat/completions")
async def create_chat_completion(
    request: ChatCompletionRequest,
    api_key: str = Depends(verify_api_key)
):
    # ... 前面的认证和路由选择逻辑 ...
    
    if request.stream:
        adapter = get_adapter(backend_config)
        async def event_generator():
            try:
                async for chunk in adapter.chat_completion_stream(request):
                    yield chunk
            finally:
                await adapter.close()
        
        return StreamingResponse(
            event_generator(),
            media_type="text/event-stream",
            headers={
                "Cache-Control": "no-cache",
                "Connection": "keep-alive",
            }
        )
    else:
        # 非流式逻辑，同上...

6.2 负载均衡与故障转移

简单的优先级路由不够智能。我们可以引入更复杂的策略：

轮询（Round Robin） ：在支持同一模型的后端间均匀分配请求。
最少连接（Least Connections） ：将新请求发给当前连接数最少的后端。
基于响应时间的动态路由 ：定期探测后端健康状态和延迟，优先选择最快的。

实现这些需要维护一个后端状态池。下面是一个增强版路由器的简单示例：

# app/core/advanced_router.py
import asyncio
from collections import defaultdict
import time

class AdvancedBackendRouter:
    def __init__(self):
        self.backends = [] # 加载配置
        self.backend_stats = defaultdict(lambda: {"success": 0, "fail": 0, "avg_latency": 0, "last_check": 0})
        self.lock = asyncio.Lock()
        
    async def select_backend(self, model: str) -> Dict[str, Any]:
        candidates = [b for b in self.backends if model in b.get("models", []) and b.get("enabled", True)]
        if not candidates:
            raise ValueError(f"No backend for model {model}")
        
        # 策略：选择最近成功率最高、延迟最低的后端
        scored_backends = []
        for backend in candidates:
            stats = self.backend_stats[backend["name"]]
            # 简单的评分公式：成功率权重 * 延迟倒数权重
            success_rate = stats["success"] / max(1, stats["success"] + stats["fail"])
            latency_score = 1.0 / max(0.1, stats["avg_latency"]) # 避免除零
            score = success_rate * 0.7 + latency_score * 0.3
            scored_backends.append((score, backend))
        
        # 选择分数最高的
        scored_backends.sort(key=lambda x: x[0], reverse=True)
        return scored_backends[0][1]
    
    async def update_stats(self, backend_name: str, success: bool, latency: float):
        async with self.lock:
            stats = self.backend_stats[backend_name]
            if success:
                stats["success"] += 1
            else:
                stats["fail"] += 1
            # 更新平均延迟（简单移动平均）
            old_avg = stats["avg_latency"]
            total_req = stats["success"] + stats["fail"]
            stats["avg_latency"] = (old_avg * (total_req - 1) + latency) / total_req
            stats["last_check"] = time.time()

在路由端点中，每次请求完成后，调用 update_stats 来更新后端状态，实现动态路由。

6.3 请求重试与熔断机制

网络请求难免失败。一个健壮的系统必须包含重试逻辑。我们可以使用 tenacity 库来实现带退避策略的重试。

pip install tenacity

# 在 adapters.py 的请求方法中包裹重试逻辑
from tenacity import retry, stop_after_attempt, wait_exponential, retry_if_exception_type

# 定义重试条件：只对特定的网络异常或5xx错误重试
def is_retryable_exception(exception):
    return isinstance(exception, (httpx.RequestError, httpx.HTTPStatusError)) and \
           (not hasattr(exception, 'response') or exception.response.status_code >= 500)

@retry(
    stop=stop_after_attempt(3), # 最多重试3次
    wait=wait_exponential(multiplier=1, min=1, max=10), # 指数退避
    retry=retry_if_exception_type(is_retryable_exception)
)
async def _make_request_with_retry(self, url, payload):
    # 这是实际发起请求的内部函数
    resp = await self.client.post(url, json=payload)
    resp.raise_for_status()
    return resp

# 在适配器的 chat_completion 方法中调用 _make_request_with_retry

熔断机制 （Circuit Breaker）可以防止在某个后端持续故障时，仍然不断向其发送请求，浪费资源。当失败率达到阈值时，熔断器“跳闸”，短时间内所有请求快速失败或直接路由到其他后端，给故障后端恢复的时间。可以使用 pybreaker 等库实现。

6.4 监控、日志与统计

生产环境必须要有完善的监控。至少需要记录：

访问日志 ：谁、什么时候、调用了什么模型、消耗了多少Token、耗时多长、是否成功。
错误日志 ：详细的错误堆栈，便于排查。
性能指标 ：请求速率、延迟分布（P50, P95, P99）、后端健康状态。

可以将日志结构化的输出到控制台，并用像 Prometheus + Grafana 这样的工具来收集和展示指标。在代码关键位置埋点：

# 使用 prometheus_client 暴露指标
from prometheus_client import Counter, Histogram, generate_latest

REQUEST_COUNT = Counter('proxy_requests_total', 'Total requests', ['model', 'backend', 'status'])
REQUEST_LATENCY = Histogram('proxy_request_duration_seconds', 'Request latency', ['model', 'backend'])

# 在路由端点中
@router.post("/v1/chat/completions")
async def create_chat_completion(...):
    start = time.time()
    try:
        # ... 处理逻辑 ...
        status = "success"
    except Exception as e:
        status = "error"
        raise
    finally:
        duration = time.time() - start
        REQUEST_COUNT.labels(model=request.model, backend=backend_config['name'], status=status).inc()
        REQUEST_LATENCY.labels(model=request.model, backend=backend_config['name']).observe(duration)

同时，暴露一个 /metrics 端点供Prometheus抓取。

7. 部署与运维要点

开发完成只是第一步，如何稳定运行服务同样重要。

7.1 部署方式

直接运行 ：使用 uvicorn app.main:app --host 0.0.0.0 --port 8000 --workers 4 。 --workers 指定进程数，利用多核CPU。
使用Gunicorn ：对于生产环境，通常用Gunicorn作为进程管理器，搭配Uvicorn工作进程。
```
pip install gunicorn
gunicorn -w 4 -k uvicorn.workers.UvicornWorker app.main:app -b 0.0.0.0:8000
```

容器化（Docker） ：这是最推荐的方式，保证环境一致性。

FROM python:3.10-slim
WORKDIR /app
COPY requirements.txt .
RUN pip install --no-cache-dir -r requirements.txt
COPY . .
CMD ["uvicorn", "app.main:app", "--host", "0.0.0.0", "--port", "8000", "--workers", "4"]

构建并运行：


   docker build -t openai-proxy . && docker run -p 8000:8000 --env-file .env openai-proxy

使用云服务 ：可以部署在云服务器、Kubernetes集群或Serverless平台（如Vercel, Google Cloud Run）上，根据流量自动伸缩。

7.2 配置管理

敏感配置（API Keys、数据库连接串）必须通过环境变量或安全的配置中心（如HashiCorp Vault）注入。使用 .env 文件进行本地开发，但绝不提交到代码仓库。

# .env 文件示例
OPENAI_API_KEY=sk-xxx
AZURE_OPENAI_KEY=xxx
PROXY_API_KEYS=key1,key2,key3
LOG_LEVEL=INFO

7.3 安全加固

速率限制 ：防止滥用。可以使用 slowapi 或 fastapi-limiter 为每个API Key设置每分钟/每天的调用次数限制。
输入验证与清理 ：FastAPI的Pydantic模型已经提供了基础验证。对于用户输入的 messages 内容，应考虑进行基本的清理，防止Prompt注入攻击，尽管主要防御应在最终的大模型侧。
HTTPS ：在生产环境务必使用HTTPS。可以通过Nginx反向代理添加SSL证书，或者让FastAPI应用本身使用SSL（不推荐，通常由前置负载均衡器处理）。

7.4 常见问题排查实录

在实际运行中，你肯定会遇到各种问题。这里记录几个典型场景和排查思路：

问题1：客户端收到 502 Bad Gateway 错误。

排查步骤 ：
1. 检查中转服务日志，看错误信息是否来自后端（如OpenAI API返回了 429 速率限制或 401 密钥无效）。
2. 检查网络连通性：从中转服务器是否能 ping 通或 curl 到后端API地址。
3. 检查后端服务的API Key配置是否正确、是否过期、是否有额度。
4. 检查中转服务的超时设置是否太短，大模型响应慢可能导致超时。

问题2：流式响应中断或不完整。

排查步骤 ：
1. 检查客户端和中转服务之间是否有代理或负载均衡器（如Nginx）默认关闭了长连接或设置了缓冲区。需要在Nginx配置中为 /v1/chat/completions 路径禁用代理缓冲： proxy_buffering off; 。
2. 检查中转服务到后端服务的流式传输是否正常。可以在适配器的流式方法中打印日志，查看是否收到了完整的SSE数据块。
3. 客户端代码是否正确处理了SSE流的关闭和错误事件。

问题3：响应速度慢，延迟高。

排查步骤 ：
1. 使用监控指标（如 REQUEST_LATENCY ）定位是哪个环节慢。是网络延迟，还是大模型本身生成慢？
2. 如果是网络延迟，考虑将服务部署在离你的用户和离大模型服务器都更近的地理位置。
3. 检查中转服务本身的资源使用率（CPU、内存、网络IO），是否达到瓶颈。
4. 检查是否有某个后端持续高负载，考虑增加该后端的实例或进行负载分流。

问题4：Token消耗统计不准。

原因：不同模型供应商返回的Usage信息可能格式不一致或缺失。
解决方案 ：在适配器中，如果后端没有返回标准的 usage 字段，需要自己估算。可以使用 tiktoken 库（针对OpenAI模型）或类似的Tokenizer来本地计算Prompt的Token数。对于生成的Completion Token数，如果后端不提供，估算会非常困难，可能需要依赖后端返回的 finish_reason 和文本长度进行粗略估算，但这并不准确。最好的方式是推动后端服务提供标准的Usage信息。

搭建和维护一个生产级的大模型中转API，是一个持续迭代和优化的过程。从最简单的请求转发开始，逐步加入路由、熔断、监控、安全等特性，最终它会成为你AI应用架构中坚实而灵活的一块基石。