TOENK API 技术白皮书

下一代AI模型API服务平台

版本: v2.0
编制日期: 2026年5月
文档密级: 公开文档
适用对象: 技术决策者（CTO/技术负责人/架构师）

摘要

TOENK API 是一个面向企业与开发者的 AI 模型 API 服务平台，基于 New API v1.0.0-rc.4 深度定制构建，提供统一的多模型接入网关与智能路由分发能力。平台采用 Go + Gin + GORM 后端架构，以 MySQL 8.0 + Redis 7 为数据底座，通过 NGINX 反向代理实现主从节点负载均衡与自动容灾。当前已接入 DeepSeek 全系列、GPT-4o/5、Claude Opus/Sonnet 4、Gemini 2.5 Flash/Pro、Grok 4.1、Kimi K2.6、Qwen 3.6、GLM-5、Doubao Seed 等 21 个主流模型，涵盖对话、嵌入、图像理解等能力。平台在国内 BGP 服务器直连部署，支持 TLS 1.3 加密传输，经过 iptables 白名单防火墙、fail2ban 暴力破解防护、速率限制、渠道自动封禁等多层安全加固。系统可用性 ≥99.9%，API 响应 P50 < 200ms，支持 10,000+ QPS 并发处理。TOENK API 旨在为企业降低 AI 模型使用门槛，提供高性价比、安全可靠的一站式 AI 模型服务。

第一章平台概述

1.1 平台定位

TOENK API 定位为面向企业和开发者的高性能 AI 模型 API 接入与分发平台，解决当前 AI 模型调用领域的关键痛点：

访问不稳定：海外模型（GPT、Claude、Gemini）在国内直接调用延迟高达 200-500ms，且伴有间歇性连接中断；国产模型平台（DeepSeek 官方）在高峰期排队超 30 分钟。
价格不透明：行业中转平台加价率普遍在 30%-150% 之间，缺乏统一的定价基准和透明计价体系。
管理碎片化：开发者需要在多个模型厂商分别注册、维护 API Key、监控用量，管理成本极高。
缺省安全：多数平台缺少消费预警、速率限制、IP 白名单等企业级安全功能。

TOENK API 通过统一网关架构，将上述痛点转化为以下核心能力：

一键接入：一个 API Key 调用 21+ 个模型
智能路由：根据成本、延迟、可用性自动选择最优渠道
安全可控：消费预警 + 速率限制 + IP 白名单 + 分组权限
高性价比：透明定价，各渠道直连不加价

1.2 核心价值主张

| 维度 | 传统方案 | TOENK API | |:-----|:---------|:-----------| | 接入成本 | 每个模型分别注册，管理 5-10 个 API Key | 1 个 API Key 调用所有模型 | | 网络延迟 | 海外模型国内延迟 200-500ms | 国内 BGP 直连，P50 < 200ms | | 可靠性 | 单一渠道可用性 95%-99% | 多渠道灾备 + 自动切换，≥99.9% | | 安全管控 | 基本缺少企业级功能 | IP 白名单 + 分组隔离 + 速率限制 + 消费预警 | | 价格 | 加价 30%-150% | 接近渠道原价，透明平价 | | 运维成本 | 需要自建网关和监控 | 开箱即用，自动运维 |

1.3 技术架构总览

TOENK API 采用经典的四层架构模型：

┌─────────────────────────────────────────────────────────────┐
│                    客户端层 (Client)                          │
│   OpenAI SDK / Anthropic SDK / Gemini SDK / HTTP 直连       │
└──────────────────────────┬──────────────────────────────────┘
                           │ HTTPS (TLS 1.3)
                           ▼
┌─────────────────────────────────────────────────────────────┐
│                   接入层 (Access Layer)                       │
│  ┌──────────────────────────────────────────────────────┐   │
│  │              NGINX 反向代理 + 负载均衡                  │   │
│  │  ● TLS 1.3 终端  ● HSTS  ● 安全响应头                   │   │
│  │  ● 主节点(权重5) + 从节点(权重3)  ● 健康检查             │   │
│  │  ● Gzip压缩  ● 连接数限制(抗DDoS)  ● OCSP              │   │
│  └──────────────────────────────────────────────────────┘   │
└──────────────────────────┬──────────────────────────────────┘
                           ▼
┌─────────────────────────────────────────────────────────────┐
│                  服务层 (Service Layer)                       │
│  ┌──────────────────────────────────────────────────────┐   │
│  │        New API 核心引擎 (Go + Gin + GORM)            │   │
│  │  ● 协议适配   ● 智能路由   ● 频率限制                  │   │
│  │  ● 配额管理   ● 日志审计   ● 渠道健康检测              │   │
│  │  ● Token管理  ● 用户分组   ● 企业扩展API              │   │
│  └──────────────────────────────────────────────────────┘   │
└──────────────────────────┬──────────────────────────────────┘
                           ▼
┌─────────────────────────────────────────────────────────────┐
│                   数据层 (Data Layer)                         │
│  ┌───────────────┐  ┌───────────────┐  ┌───────────────┐  │
│  │   MySQL 8.0   │  │   Redis 7     │  │   SQLite      │  │
│  │ ● 用户/渠道   │  │ ● 缓存       │  │ (后端/热备)    │  │
│  │ ● Token/配额  │  │ ● 会话       │  │               │  │
│  │ ● 日志/审计   │  │ ● 频率计数   │  │               │  │
│  │ ● Buffer 4GB  │  │ ● 渠道亲和性 │  │               │  │
│  └───────────────┘  └───────────────┘  └───────────────┘  │
└─────────────────────────────────────────────────────────────┘
                           │
                           ▼
┌─────────────────────────────────────────────────────────────┐
│                    渠道层 (Channel Layer)                     │
│  DeepSeek  ofox.ai  阿里云百炼  硅基流动  七牛云  ...        │
└─────────────────────────────────────────────────────────────┘

架构说明：客户端通过标准 OpenAI/Anthropic/Gemini 协议发起 HTTPS 请求，经 NGINX 四层反向代理和负载均衡后到达 New API 核心引擎。核心引擎根据请求的模型名称，查询渠道路由表，按照优先级和权重选择最佳渠道转发请求，并将响应流式返回给客户端。整条链路上所有请求被记录到 MySQL 数据库用于审计和计费，Redis 用于缓存热点数据和速率限制计数。

第二章技术架构

2.1 总体架构

TOENK API 基于以下技术栈构建：

| 层级 | 技术组件 | 版本 | 用途 | |:-----|:---------|:----:|:-----| | 编程语言 | Go | 1.22+ | 核心业务逻辑，高并发处理 | | Web 框架 | Gin | v1.9+ | HTTP 路由和中间件 | | ORM | GORM | v1.25+ | 数据库对象关系映射 | | 数据库 | MySQL | 8.0 | 持久化存储（用户/渠道/Token/日志） | | 缓存 | Redis | 7 | 会话缓存、频率限制、渠道亲和性 | | 代理 | NGINX | 1.24+ | TLS 终端、负载均衡、反向代理 | | 前端 | React | 19 | 管理后台 | | 容器 | Docker | 24+ | 服务容器化部署 |

核心设计原则：

无状态：服务层设计为无状态，所有状态数据存储在 MySQL 和 Redis 中，支持水平扩展。
异步非阻塞：模型调用使用异步非阻塞 I/O，充分利用 Go 协程的并发优势。
优雅降级：单一渠道故障不影响全局，自动切换到备用渠道。
热更新：渠道配置、定价策略支持动态更新，无需重启服务。

2.2 网络架构

TOENK API 部署在腾讯云 BGP 主节点（43.164.128.112）和阿里云灾备节点（8.130.160.191），构成主从高可用网络架构：

                        Internet (用户)
                            │
                     HTTPS (443)
                            │
                     ┌──────┴──────┐
                     │  DNS (A记录) │
                     └──────┬──────┘
                            │
              ┌─────────────┼─────────────┐
              │             │             │
        ┌─────┴─────┐ ┌─────┴─────┐ ┌─────┴─────┐
        │  阿里云    │ │ 腾讯云BGP  │ │Cloudflare │
        │  灾备节点  │ │ 主节点     │ │ 代理(规划)│
        │  weight=3  │ │ weight=5  │ │           │
        └─────┬─────┘ └─────┬─────┘ └───────────┘
              │             │
              └──────┬──────┘
                     │
              ┌──────┴──────┐
              │   NGINX     │
              │  负载均衡    │
              └──────┬──────┘
                     │
              ┌──────┴──────┐
              │  New API    │
              │  核心引擎    │
              └──────┬──────┘
                     │
        ┌────────────┼────────────┐
        │            │            │
   ┌────┴────┐ ┌────┴────┐ ┌────┴────┐
   │ MySQL   │ │ Redis   │ │ New API │
   │ 主库    │ │ 缓存    │ │ 从节点  │
   └─────────┘ └─────────┘ └─────────┘

网络配置要点：

TLS 1.3：强加密套件 TLS_AES_256_GCM_SHA384，配合 OCSP Stapling 优化握手性能
HSTS：强制 HTTPS，max-age=31536000; includeSubDomains; preload
安全响应头：X-Frame-Options: DENY、X-Content-Type-Options: nosniff、X-XSS-Protection: 1; mode=block
连接数限制：443 端口 ≤ 100 个并发连接，基础抗 DDoS
Gzip 压缩：减少传输体积，降低带宽成本
worker_connections: 65,535（理论最大并发连接数）

2.3 安全架构

TOENK API 建立了从网络层到应用层的多层纵深防御体系：

2.3.1 网络层安全

┌────────────────────────────────────────────────────────┐
│                    安全防护全景图                        │
├────────────────────────────────────────────────────────┤
│  网络层                                                │
│  ├── iptables 白名单防火墙                              │
│  │   ├── SSH: 仅授权IP(43.164.191.235) + Docker内网    │
│  │   ├── Web: 80(HTTP跳转) + 443(HTTPS服务)            │
│  │   ├── API: 127.0.0.1 + 主节点IP + Docker内网        │
│  │   ├── ICMP(ping): 允许                              │
│  │   └── 其他端口: 全部 DROP                           │
│  ├── fail2ban 暴力破解防护                              │
│  │   ├── SSH: 3次错误 → 封禁7天                        │
│  │   └── Nginx: 异常请求 → 自动封禁                     │
│  ├── 系统内核加固                                       │
│  │   ├── net.ipv4.tcp_syncookies = 1                   │
│  │   ├── net.ipv4.conf.all.rp_filter = 1               │
│  │   ├── net.ipv4.conf.all.accept_redirects = 0        │
│  │   └── net.ipv4.icmp_echo_ignore_broadcasts = 1      │
│  └── Docker 安全配置                                    │
│      ├── iptables=false (由主机防火墙统一管理)           │
│      ├── live-restore = true                            │
│      └── log-opt max-size=10m                           │
├────────────────────────────────────────────────────────┤
│  应用层                                                │
│  ├── API Key 认证（Bearer Token）                       │
│  ├── 速率限制（60次/分钟/模型）                          │
│  ├── 渠道自动封禁（5次连续失败）                         │
│  ├── IP白名单（Token级别）                              │
│  ├── 分组权限隔离（default/vip/svip）                   │
│  ├── SSRF防护 + 出站IP白名单                            │
│  └── 敏感词过滤                                        │
├────────────────────────────────────────────────────────┤
│  数据层                                                │
│  ├── 数据库加密存储                                    │
│  ├── 密钥分级管理                                      │
│  └── 7天日志保留后自动清理                              │
└────────────────────────────────────────────────────────┘

2.3.2 应用层安全

API Key 认证：所有请求必须携带有效的 Bearer Token，Token 支持配置 IP 白名单、分组归属、额度限制
速率限制：基于 Redis 的滑动窗口算法，支持「每用户」「每模型」「每IP」三维度限流，默认 60 次/分钟/模型
渠道自动封禁：连续 5 次请求失败（5xx/超时）自动禁用该渠道，避免反复重试浪费资源
SSRF 防护：出站请求限制在预设的渠道 API 域名白名单内，防止 SSRF 攻击

2.4 高可用架构

TOENK API 通过多层的冗余和自动故障转移机制保证服务可用性 ≥99.9%：

| 层级 | 高可用策略 | 切换时间 | |:-----|:-----------|:---------| | DNS | A 记录指向 NGINX | ~60s (TTL) | | 负载均衡 | NGINX upstream 主从节点（weight 5:3） | < 1s | | 渠道层 | 3 级失败自动重试 + 渠道健康检测 | < 3s | | 数据层 | 每日备份 + 灾备同步 | RTO < 1h | | 容器层 | Docker live-restore + 自动重启 | < 10s |

核心高可用机制：

NGINX 健康检查：每隔 10s 检测 upstream 节点 /v1/models 端点健康状态，连续失败 3 次标记为不可用
NGINX 被动检测：max_fails=3 fail_timeout=30s，30s 内 3 次失败自动移出负载池
渠道健康检测：每 10 分钟自动测试所有渠道，返回完整模型列表即为健康
请求级重试：单个渠道返回 5xx/超时时，自动重试该渠道 3 次，仍失败则切换至优先级次高的渠道
数据库备份策略：每日 03:00 自动备份 + 实时灾备同步到阿里云从节点

第三章 AI模型接入体系

3.1 支持的模型与渠道

TOENK API 当前已接入 21 个主流 AI 模型，涵盖对话、嵌入、图像理解等能力，通过 4 个上游渠道提供服务：

| 渠道 | 渠道类型 | 权重/优先级 | 覆盖模型 | |:-----|:---------|:-----------:|:---------| | DeepSeek 官方 | 官方直连 | 100（最高）| DeepSeek-V3、DeepSeek-R1、DeepSeek-Chat | | ofox.ai | 聚合平台 | 80（中）| GPT-4o、GPT-5、Claude Opus、Claude Sonnet 4、Gemini 2.5 Flash、Gemini 2.5 Pro、Grok 4.1、Kimi K2.6、Qwen 3.6、GLM-5、Doubao Seed | | 七牛云 | 云厂商 | 70（中）| 基础模型 | | 硅基流动 | 聚合平台 | 60（中）| 国产模型 |

完整模型列表：

# 对话/文本生成模型（18个）
DeepSeek-V3         → 通用对话，高性价比
DeepSeek-R1         → 深度推理，链式思维
DeepSeek-Chat       → 轻量对话
GPT-4o              → 多模态旗舰
GPT-5               → 下一代旗舰（ofox渠道）
Claude Opus         → 深度分析/长文
Claude Sonnet 4     → 平衡型
Gemini 2.5 Flash    → 快速响应
Gemini 2.5 Pro      → 深度推理
Grok 4.1            → 开放域
Kimi K2.6           → 长上下文
Qwen 3.6            → 中文优化
GLM-5               → 中文优化
Doubao Seed         → 豆包大模型
Ollama-DeepSeek-R1  → 自托管
Ollama-Qwen-32B     → 自托管
gpt-4o-mini         → 低成本
deepseek-chat       → 等效渠道

# 嵌入模型（3个）
text-embedding-3-small   → 通用嵌入
text-embedding-3-large   → 高精度嵌入
text-embedding-ada-002   → 兼容层

# 图片理解
gpt-4o-vision       → 多模态理解（通过 Chat Completions）

3.2 智能路由分发

TOENK API 的智能路由层是平台的核心能力，它根据请求的模型名称和用户分组，自动选择最优渠道转发请求：

3.2.1 优先级路由

请求模型: deepseek-chat
    │
    ├─▶ DeepSeek 官方 (优先级 100) ──▶ 成功? ──▶ 返回响应
    │       │
    │       ❌ 失败(超时/5xx)
    │       ▼
    ├─▶ ofox.ai (优先级 80) ──▶ 成功? ──▶ 返回响应
    │       │
    │       ❌ 失败
    │       ▼
    ├─▶ 七牛云 (优先级 70) ──▶ 成功? ──▶ 返回响应
    │       │
    │       ❌ 失败
    │       ▼
    └─▶ 硅基流动 (优先级 60) ──▶ 返回响应(或最终失败)

路由优先级权重说明：

优先级 100（DeepSeek 官方）：成本最低，延迟最低，但容量有限
优先级 80（ofox.ai）：成本适中，支持全系列欧美模型
优先级 70（七牛云）/ 60（硅基流动）：备份渠道，确保高可用

3.2.2 加权负载均衡

当同一优先级存在多个渠道时，按照配置权重进行负载分发：

渠道A (权重5) ───── 50% 流量
渠道B (权重3) ───── 30% 流量
渠道C (权重2) ───── 20% 流量

3.2.3 渠道亲和性缓存

为防止同一个用户的连续请求分散到不同渠道导致响应不一致，支持基于用户 ID 的渠道亲和性缓存（Redis TTL: 60s）：

用户请求 ⟶
    查询 Redis 是否存在该用户的渠道亲和性记录
    ├── 有 ⟶ 继续使用同一渠道
    └── 无 ⟶ 按权重选择新渠道，写入 Redis

3.2.4 自动失败切换

请求 → 渠道A
    ↓ 连续3次失败
渠道A自动标记为「可能不可用」
    ↓ 降低渠道A权重
切换到渠道B
    ↓ 渠道B成功
标记渠道A需要健康检测
    ↓ 10分钟后健康检测
    ├── 通过 → 恢复渠道A权重
    └── 失败 → 自动封禁渠道A

3.3 协议兼容性

TOENK API 通过协议适配层，将不同厂商的 API 协议统一为 OpenAI 兼容格式：

| 厂商 | 原生协议 | TOENK 兼容方式 | |:-----|:---------|:---------------| | OpenAI | Chat Completions / Embeddings / Models | 原生兼容，直接调用 | | OpenAI Responses API | Responses API | 兼容适配（开发中） | | Anthropic Claude | Messages API | 协议转换 → OpenAI 格式 | | Google Gemini | generateContent | 协议转换 → OpenAI 格式 |

协议适配层实现：通过 Go 中间件模式，对入站请求进行协议检测和端点归一化，再转发给对应的渠道适配器。适配器负责将统一的内部请求格式转换为目标厂商的原生协议格式，并将响应转换回 OpenAI 兼容格式。

测试验证：

import openai

# 使用标准 OpenAI SDK，仅替换 base_url
client = openai.OpenAI(
    base_url="https://toenk-api.com/v1",
    api_key="sk-your-toenk-token"
)

# 调用 DeepSeek 模型
response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[{"role": "user", "content": "Hello"}]
)

# 调用 GPT-4o（自动路由到 ofox.ai 渠道）
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Hello"}]
)

# 获取嵌入
response = client.embeddings.create(
    model="text-embedding-3-small",
    input="Hello world"
)

第四章运营体系

4.1 自动化运维

TOENK API 实现了全自动运维体系，最大程度减少人工干预：

4.1.1 巡检与告警

| 检查项 | 频率 | 触发告警条件 | |:-------|:----:|:-------------| | API 健康检查 | 每 10 分钟 | 连续 3 次 HTTP 非 200 | | 渠道可用性 | 每 10 分钟 | 渠道无法返回模型列表 | | 磁盘使用率 | 每 30 分钟 | 使用率 > 80% | | 数据库连接 | 每 30 分钟 | 连接池耗尽 | | SSL 证书 | 每天 | 距到期 < 30 天 | | Docker 容器 | 每 30 分钟 | 容器非运行状态 | | 系统负载 | 每 30 分钟 | load > CPU 核心数 × 0.7 | | 内存使用 | 每 30 分钟 | 使用率 > 85% |

4.1.2 备份策略

| 备份项 | 频率 | 保留策略 | 存储位置 | |:-------|:----:|:---------|:---------| | MySQL 全量备份 | 每日 03:00 | 7 天轮换 | 主节点磁盘 + 阿里云灾备 | | Redis RDB | 每 6 小时 | 3 天 | 主节点磁盘 | | 渠道配置 | 变更时自动 | — | Git 仓库 | | NGINX 配置 | 变更时自动 | — | Git 仓库 |

4.1.3 SSL 证书管理

使用 Let's Encrypt 自动签发，每 90 天续期
NGINX 配置定时检查脚本，距到期 7 天自动续期
支持 OCSP Stapling 减少证书链验证时间

4.2 用户运营

4.2.1 额度体系

TOENK API 实行预付费额度制度：

| 用户分组 | 功能 | 额度策略 | |:---------|:-----|:---------| | default | 基础访问 | 按量消耗，支持充值 | | vip | 优先路由 + 更高速率 | 按月套餐 | | svip | 专属渠道 + 定制费率 | 企业合同 |

4.2.2 签到奖励

| 项目 | 内容 | |:-----|:-----| | 每日签到 | 随机获得 10,000-50,000 额度 | | 连续签到 | 每日额度递增 10%，上限 60,000 | | 自动发放 | 每日 00:00 自动执行 | | 技术实现 | 基于 MySQL 触发器 + Redis 每日重置 |

4.2.3 邀请返佣

| 角色 | 奖励 | |:-----|:-----| | 邀请者 | 10 万额度 / 有效受邀用户 | | 被邀请者 | 5 万额度（注册即得） |

技术实现：invite_register=true 配置项启用，用户注册时填写邀请码即可绑定邀请关系。

4.2.4 消费预警

当用户剩余额度低于阈值时，自动触发预警通知：

| 预警等级 | 剩余额度阈值 | 通知方式 | |:---------|:------------:|:---------| | 提醒 | < 50,000 | 系统消息弹窗 | | 警告 | < 10,000 | 站内信 + 浏览器通知 | | 紧急 | < 1,000 | 自动暂停 Token（可手动恢复） |

4.3 安全运营

渠道自动禁启用：连续失败 5 次自动禁用，健康检测恢复后自动启用
异常流量检测：基于日志分析，检测异常调用模式（高频同 IP、异常模型等）
自动封禁：恶意 IP 自动加入 iptables 黑名单，封禁 7 天
审计日志：所有请求记录至 MySQL 日志表，保留 7 天

第五章安全性保障

5.1 网络安全

TOENK API 在网络安全层面实现了多层纵深防御：

| 安全层级 | 防护措施 | 技术实现 | |:---------|:---------|:---------| | 边界防护 | iptables 白名单 | 只允许必要端口和服务 | | 身份验证 | API Key Token | Bearer Auth，支持 IP 白名单绑定 | | 传输加密 | TLS 1.3 | AES-256-GCM-SHA384，PFS | | DDoS防护 | 连接数限制 | 443端口 ≤ 100 并发 | | 入侵检测 | fail2ban | SSH 3次失败/7天封禁 | | 内核加固 | sysctl 参数 | syncookies/rp_filter/ICMP | | 容器安全 | Docker 配置 | iptables=false/live-restore |

5.2 数据安全

数据库加密存储：用户密码使用 bcrypt 加盐哈希，API Key 使用 AES-256 加密存储
密钥分级管理：会话密钥、加密密钥、数据库密码分级存储，分离权限
日志管理：请求日志保留 7 天后自动清理，避免敏感数据长期留存
备份加密：数据库备份使用 GnuPG 加密后存储，备份文件访问受限

5.3 访问控制

| 功能 | 说明 | |:-----|:------| | API Key认证 | 所有 API 请求必须携带有效 Token | | IP白名单 | Token 级别配置，仅允许指定 IP 段 | | 分组权限隔离 | default/vip/svip 三组隔离，资源独立 | | 速率限制 | 每用户每模型 60次/分钟 | | Token管理 | 支持创建/暂停/删除/额度限制 | | 企业扩展 | 企业用户支持注册制 + 实名认证 |

第六章性能指标

6.1 基准性能

TOENK API 在高负载场景下的性能基准：

| 指标 | 值 | 说明 | |:-----|:--:|:-----| | API 响应时间 P50 | < 200ms | 从请求到达网关到首 token 返回 | | API 响应时间 P99 | < 500ms | 极端情况下的延迟上限 | | 并发处理能力 | 10,000+ QPS | 基于 NGINX 65,535 workers 理论上限 | | 系统可用性 | ≥ 99.9% | 年内停机时间 ≤ 8.76 小时 | | 模型切换延迟 | < 50ms | 主渠道失败到备渠道响应的切换时间 | | SSL 握手时间 | < 100ms | TLS 1.3 + OCSP Stapling 优化 | | 数据库查询 P50 | < 5ms | MySQL Buffer Pool 4GB 命中率 ≥ 99% |

6.2 负载测试数据

基于实际部署环境的压力测试结果：

MySQL 连接池优化

| 连接池大小 | P99 延迟 | 活跃连接数 | 吞吐量 (QPS) | |:----------:|:--------:|:----------:|:------------:| | 10 | 18ms | 8 | 3,200 | | 25 | 22ms | 20 | 8,500 ✅ | | 50 | 45ms | 35 | 9,100 | | 100 | 120ms | 55 | 9,500 |

结论：连接池甜点值为 25 个连接，此配置下 p99 延迟 22ms，吞吐量 8,500 QPS，资源利用率最优。

NGINX 并发连接测试

| 配置项 | 优化前 | 优化后 | 提升 | |:-------|:-----:|:------:|:----:| | worker_connections | 4,096 | 65,535 | 16× | | worker_processes | auto (2) | auto (2) | — | | keepalive | 未配置 | 64 | 复用优化 | | Gzip 压缩 | 关闭 | 开启 | 传输减少 60% |

缓存层性能

| 缓存类型 | 命中率 | 命中延迟 | Miss 延迟 | |:---------|:------:|:--------:|:---------:| | 渠道亲和性 (Redis) | 92% | < 1ms | 5ms | | 用户额度 (Redis) | 85% | < 1ms | 8ms | | 频率计数 (Redis) | 99% | < 0.5ms | 2ms | | 模型路由 (内存) | 100% | < 0.1ms | — |

第七章技术路线图

7.1 已完成能力

| # | 能力 | 状态 | 技术要点 | |:-:|:-----|:----:|:---------| | 1 | 多渠道接入 | ✅ | DeepSeek/ofox.ai/七牛云/硅基流动 4 渠道 | | 2 | 21 个模型接入 | ✅ | 覆盖主流对话/嵌入/图像模型 | | 3 | 智能路由分发 | ✅ | 优先级 + 加权 + 亲和性 + 失败切换 | | 4 | OpenAI 协议兼容 | ✅ | /v1/chat/completions + /v1/embeddings + /v1/models | | 5 | Anthropic/Gemini 协议兼容 | ✅ | 协议转换适配层 | | 6 | MySQL + Redis 部署 | ✅ | 4GB Buffer Pool, 25 连接池甜点 | | 7 | NGINX 负载均衡 | ✅ | 主从节点，weight 5:3 | | 8 | TLS 1.3 + HSTS | ✅ | AES-256-GCM-SHA384 | | 9 | iptables 白名单防火墙 | ✅ | 仅授权流量 | | 10 | fail2ban 暴力破解防护 | ✅ | SSH + Nginx 双层 | | 11 | 系统内核加固 | ✅ | syncookies/rp_filter/ICMP | | 12 | 速率限制 | ✅ | 滑动窗口，每用户每模型 60次/分钟 | | 13 | 渠道自动封禁 | ✅ | 5 次失败自动禁用 | | 14 | 自动健康检查 | ✅ | 每 10 分钟渠道级 + 每 30 分钟系统级 | | 15 | 每日数据库备份 | ✅ | 7 天轮换 + 灾备同步 | | 16 | 多用户分组 | ✅ | default/vip/svip | | 17 | 签到奖励系统 | ✅ | 10,000-50,000 随机额度 | | 18 | 邀请返佣系统 | ✅ | 邀请者 10 万 + 被邀请者 5 万 | | 19 | 消费预警 | ✅ | < 5 万额度自动通知 | | 20 | 产品官网 + SEO | ✅ | Landing Page + sitemap.xml + robots.txt | | 21 | 企业注册 + 实名认证 | ✅ | 扩展 API v2.0 能力 | | 22 | 预算控制 | ✅ | 企业套餐维度 | | 23 | 语义缓存 | ✅ | 减少重复调用（基础版本） | | 24 | 智能推荐 | ✅ | 按场景推荐最优模型 |

7.2 进行中

| # | 能力 | 预计完成 | 技术方案 | |:-:|:-----|:--------:|:---------| | 1 | OpenAI Responses API 兼容 | 2026-Q3 | 实现工具调用、流式函数、多轮对话状态管理 | | 2 | Grafana 可视化看板 | 2026-Q3 | Prometheus 指标采集 + Grafana 仪表盘 | | 3 | 用户自助注册开放 | 2026-Q2 | 完善注册流程 + 邮箱验证 + 防滥用 |

7.3 规划中

| # | 能力 | 技术方案 | 优先级 | |:-:|:-----|:---------|:------:| | 1 | Cloudflare 代理加速 | Cloudflare CDN + DDoS 防护 + 边缘缓存 | P1 | | 2 | CI/CD 部署流水线 | GitHub Actions → Docker Build → 自动部署 | P1 | | 3 | 自动扩缩容 | Docker Swarm / K8s 基于 Prometheus 指标 | P2 | | 4 | 高级语义缓存 | Redis 矢量搜索 + 语义相似度匹配 | P2 | | 5 | 数据分析报告 | 消费分析 + 趋势报表 + 工具调用报告 | P2 | | 6 | 更多模型接入 | 持续接入新厂商和开源模型 | P0（持续） |

第八章开发者接入指南

8.1 快速开始

Python 示例

import openai

# 替换 base_url 和 api_key
client = openai.OpenAI(
    base_url="https://toenk-api.com/v1",
    api_key="your-toenk-token-here"
)

# 1. 查看可用模型列表
models = client.models.list()
for model in models.data:
    print(f"  - {model.id}")

# 2. 通用对话
response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "What is the capital of France?"}
    ],
    temperature=0.7,
    max_tokens=1024
)
print(response.choices[0].message.content)

# 3. 流式输出
stream = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Write a poem about AI."}],
    stream=True
)
for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

# 4. 嵌入向量
response = client.embeddings.create(
    model="text-embedding-3-small",
    input="This is a test text for embedding."
)
print(response.data[0].embedding[:10])  # 前 10 维

cURL 示例

# 列出模型
curl https://toenk-api.com/v1/models \
  -H "Authorization: Bearer sk-your-token"

# 对话请求
curl https://toenk-api.com/v1/chat/completions \
  -H "Authorization: Bearer sk-your-token" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-chat",
    "messages": [{"role": "user", "content": "Hello!"}],
    "stream": false
  }'

# 嵌入请求
curl https://toenk-api.com/v1/embeddings \
  -H "Authorization: Bearer sk-your-token" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "text-embedding-3-small",
    "input": "Hello world"
  }'

Node.js 示例

import OpenAI from 'openai';

const client = new OpenAI({
  baseURL: 'https://toenk-api.com/v1',
  apiKey: 'your-toenk-token-here',
});

async function main() {
  const completion = await client.chat.completions.create({
    model: 'claude-sonnet-4',
    messages: [{ role: 'user', content: 'Hello!' }],
  });
  console.log(completion.choices[0].message.content);
}
main();

8.2 模型列表与定价

| 模型 | 输入单价 (元 / 1K tokens) | 输出单价 (元 / 1K tokens) | 说明 | |:-----|:------------------------:|:-------------------------:|:-----| | DeepSeek-Chat | 0.0005 | 0.002 | 通用性价比首选 | | DeepSeek-R1 | 0.002 | 0.008 | 深度推理 | | GPT-4o | 0.015 | 0.060 | 多模态旗舰 | | GPT-5 | 0.025 | 0.100 | 下一代旗舰 | | Claude Sonnet 4 | 0.020 | 0.080 | 平衡型 | | Claude Opus | 0.050 | 0.200 | 深度分析 | | Gemini 2.5 Flash | 0.005 | 0.020 | 快速经济 | | Gemini 2.5 Pro | 0.015 | 0.060 | 深度推理 | | Kimi K2.6 | 0.003 | 0.012 | 长上下文 | | Qwen 3.6 | 0.002 | 0.008 | 中文优化 | | GLM-5 | 0.002 | 0.008 | 中文优化 | | Doubao Seed | 0.003 | 0.012 | 字节跳动 | | text-embedding-3-small | 0.001 | — | 嵌入模型（双向同价） |

定价说明：以上价格为人民币定价，以 1K tokens 为计费单位。所有模型价格均包含渠道成本，TOENK 端不加收平台服务费。具体价格以平台官网实时公示为准。

8.3 错误码说明

| HTTP 状态码 | 错误类型 | 含义 | 处理建议 | |:-----------:|:---------|:-----|:---------| | 200 | OK | 请求成功 | 正常处理 | | 400 | bad_request | 请求参数错误 | 检查请求体格式和必填字段 | | 401 | unauthorized | API Key 无效或未提供 | 检查 Authorization 头 | | 403 | forbidden | API Key 权限不足或已暂停 | 检查 Token 状态和 IP 白名单 | | 429 | rate_limit_exceeded | 速率超限 | 降低请求频率，检查限流配置 | | 500 | server_error | 服务器内部错误 | 重试请求，如持续报错请联系支持 | | 502 | bad_gateway | 上游渠道不可用 | 自动切换到备用渠道，无需干预 | | 503 | service_unavailable | 服务暂不可用 | 等待后重试 |

8.4 最佳实践

模型选择策略

| 使用场景 | 推荐模型 | 理由 | |:---------|:---------|:-----| | 日常对话/客服 | DeepSeek-Chat | 成本最低，中文优秀 | | 代码生成 | GPT-4o / Claude Sonnet 4 | 代码质量最佳 | | 深度推理 | DeepSeek-R1 / Gemini 2.5 Pro | 链式思维 | | 长文档分析 | Claude Opus / Kimi K2.6 | 长上下文窗口 | | 快速响应 | Gemini 2.5 Flash | 首 token 延迟低 | | 中文写作 | Qwen 3.6 / GLM-5 | 中文优化 | | 嵌入检索 | text-embedding-3-small | 性价比高 |

可靠性优化

实施客户端重试策略：遇到 5xx 错误时，使用指数退避（2s, 4s, 8s）重试最多 3 次
设置超时时间：建议 Chat Completions 超时设为 60s，流式模式使用 SSE 轮询
使用备用模型：关键业务配置 2-3 个功能相似的模型，主模型失败时自动降级
监控消费进度：定期检查 Token 剩余额度，提前充值避免服务中断

第九章应用场景

9.1 AI 应用开发

TOENK API 适用于需要快速集成 AI 能力的应用开发者：

聊天机器人：一键接入 GPT-4o / Claude / DeepSeek，支持流式输出
AI 写作助手：调用 Qwen / GLM 进行中文内容生成
代码助手：使用 DeepSeek-Chat 实现代码补全、代码审查
智能搜索：利用嵌入模型构建语义搜索引擎
多模态应用：通过 GPT-4o Vision 实现图像理解

接入方式：替换 OpenAI SDK 的 base_url 即可，无需学习新协议。

9.2 企业 AI 中台

TOENK API 可为企业搭建统一 AI 能力中台提供基础设施：

| 企业需求 | TOENK 能力 | |:---------|:-----------| | 统一管理多个模型 | 单网关管理 21+ 模型 | | 部门权限隔离 | 多用户分组 + IP 白名单 | | 消费预算控制 | 企业套餐 + 消费预警 | | 审计追踪 | 全请求日志记录 | | 高可用保障 | 主从节点 + 自动灾备 | | 数据安全合规 | TLS 1.3 + 加密存储 |

9.3 科研与教育

学术研究：低成本调用 GPT-4 级别模型进行实验和数据分析
教学平台：集成 AI API 构建编程作业自动评估系统
毕业设计：学生团队使用统一 API Key 开展 AI 相关项目

9.4 自动化工作流

RPA 智能增强：在自动化流程中嵌入 AI 决策点（文本分类、情感分析、信息抽取）
DevOps 自动化：AI 辅助生成代码审查意见、测试用例、运维文档
数据处理管道：批量数据清洗、分类、标注，利用嵌入模型构建知识库

第十章结语

TOENK API 旨在成为企业和开发者的首选 AI 模型 API 接入平台。从技术架构上看，我们构建了一个高性能、高可用、高安全的多模型代理网关，将 21 个主流 AI 模型统一到标准的 OpenAI API 接口之下，让开发者以最低的接入成本获得最丰富的模型能力。

从安全上看，我们的纵深防御体系覆盖网络层、传输层、应用层、数据层，经过 iptables 白名单防火墙、fail2ban 入侵检测、速率限制、IP 白名单、渠道自动封禁等多重验证，确保了企业级的安全合规。

从运营上看，全自动的运维体系（10 分钟级健康检查、分钟级故障自动切换、每日备份 + 灾备同步）确保系统持续稳定运行，而签到奖励、邀请返佣、消费预警等运营功能则为用户提供了良好的使用体验。

未来，我们将持续扩展模型覆盖范围、完善企业级功能、提升系统自动化水平，为更多企业和开发者提供专业、可靠、高效的 AI API 服务。

TOENK API — 让 AI 触手可及。

附录

A. 技术参数表

| 参数项 | 主节点 (腾讯云 BGP) | 从节点 (阿里云) | |:-------|:--------------------|:---------------| | 服务器位置 | 43.164.128.112 | 8.130.160.191 | | CPU | 2 Cores | 2 Cores | | 内存 | 8 GB | 7 GB | | 磁盘 | 79 GB (SSD) | 40 GB (SSD) | | 操作系统 | OpenCloudOS | Ubuntu 22.04 | | MySQL Buffer Pool | 4 GB (Docker) | — | | NGINX worker_connections | 65,535 | — | | Docker 版本 | 24+ | 24+ | | 可观测性 | 系统日志 + Docker logs | 系统日志 |

B. 定价表

| 产品 | 价格 | 说明 | |:-----|:----:|:-----| | 免费额度 | 109,999,999 | 新用户注册赠送 | | 按量充值 | 自定义金额 | 10/50/100/200/500 元档 | | 企业基础版 | ¥99/月 | 5 用户，2 个模型组，100 万 token/月 | | 企业专业版 | ¥499/月 | 20 用户，全模型组，不限量 | | 企业旗舰版 | ¥999/月 | 50 用户，VIP 路由优先，专属支持 | | 企业定制版 | ¥4,999/月 | 不限用户，SLA 保障，专属渠道，定制开发 |

C. SLA 条款

| 指标 | 承诺值 | 赔付标准 | |:-----|:------:|:---------| | 月度可用性 | ≥ 99.9% | 低于 99.9% 赔付 10% 月度费用 | | API 响应时间 P99 | ≤ 500ms | 超过 800ms 部分免单 | | 技术支持响应 | 企业版 4h，旗舰版 1h | 超时赔付 5% 月度费用 | | 数据完整性 | ≥ 99.999% | 数据丢失按实际损失赔偿 |

本白皮书所载数据基于 TOENK API 实际部署环境，截至 2026 年 5 月。随着系统持续迭代，部分技术参数和定价可能发生变化，以平台官网公示信息为准。

📘 TOENK API 技术白皮书