📘 TOENK API 技术白皮书

下一代AI模型API服务平台 · 2026年5月

TOENK API 技术白皮书

下一代AI模型API服务平台

版本: v2.0
编制日期: 2026年5月
文档密级: 公开文档
适用对象: 技术决策者(CTO/技术负责人/架构师)


摘要

TOENK API 是一个面向企业与开发者的 AI 模型 API 服务平台,基于 New API v1.0.0-rc.4 深度定制构建,提供统一的多模型接入网关与智能路由分发能力。平台采用 Go + Gin + GORM 后端架构,以 MySQL 8.0 + Redis 7 为数据底座,通过 NGINX 反向代理实现主从节点负载均衡与自动容灾。当前已接入 DeepSeek 全系列、GPT-4o/5、Claude Opus/Sonnet 4、Gemini 2.5 Flash/Pro、Grok 4.1、Kimi K2.6、Qwen 3.6、GLM-5、Doubao Seed 等 21 个主流模型,涵盖对话、嵌入、图像理解等能力。平台在国内 BGP 服务器直连部署,支持 TLS 1.3 加密传输,经过 iptables 白名单防火墙、fail2ban 暴力破解防护、速率限制、渠道自动封禁等多层安全加固。系统可用性 ≥99.9%,API 响应 P50 < 200ms,支持 10,000+ QPS 并发处理。TOENK API 旨在为企业降低 AI 模型使用门槛,提供高性价比、安全可靠的一站式 AI 模型服务。


第一章 平台概述

1.1 平台定位

TOENK API 定位为面向企业和开发者的高性能 AI 模型 API 接入与分发平台,解决当前 AI 模型调用领域的关键痛点:

  1. 访问不稳定:海外模型(GPT、Claude、Gemini)在国内直接调用延迟高达 200-500ms,且伴有间歇性连接中断;国产模型平台(DeepSeek 官方)在高峰期排队超 30 分钟。
  2. 价格不透明:行业中转平台加价率普遍在 30%-150% 之间,缺乏统一的定价基准和透明计价体系。
  3. 管理碎片化:开发者需要在多个模型厂商分别注册、维护 API Key、监控用量,管理成本极高。
  4. 缺省安全:多数平台缺少消费预警、速率限制、IP 白名单等企业级安全功能。

TOENK API 通过统一网关架构,将上述痛点转化为以下核心能力:

1.2 核心价值主张

| 维度 | 传统方案 | TOENK API | |:-----|:---------|:-----------| | 接入成本 | 每个模型分别注册,管理 5-10 个 API Key | 1 个 API Key 调用所有模型 | | 网络延迟 | 海外模型国内延迟 200-500ms | 国内 BGP 直连,P50 < 200ms | | 可靠性 | 单一渠道可用性 95%-99% | 多渠道灾备 + 自动切换,≥99.9% | | 安全管控 | 基本缺少企业级功能 | IP 白名单 + 分组隔离 + 速率限制 + 消费预警 | | 价格 | 加价 30%-150% | 接近渠道原价,透明平价 | | 运维成本 | 需要自建网关和监控 | 开箱即用,自动运维 |

1.3 技术架构总览

TOENK API 采用经典的四层架构模型:

┌─────────────────────────────────────────────────────────────┐
│                    客户端层 (Client)                          │
│   OpenAI SDK / Anthropic SDK / Gemini SDK / HTTP 直连       │
└──────────────────────────┬──────────────────────────────────┘
                           │ HTTPS (TLS 1.3)
                           ▼
┌─────────────────────────────────────────────────────────────┐
│                   接入层 (Access Layer)                       │
│  ┌──────────────────────────────────────────────────────┐   │
│  │              NGINX 反向代理 + 负载均衡                  │   │
│  │  ● TLS 1.3 终端  ● HSTS  ● 安全响应头                   │   │
│  │  ● 主节点(权重5) + 从节点(权重3)  ● 健康检查             │   │
│  │  ● Gzip压缩  ● 连接数限制(抗DDoS)  ● OCSP              │   │
│  └──────────────────────────────────────────────────────┘   │
└──────────────────────────┬──────────────────────────────────┘
                           ▼
┌─────────────────────────────────────────────────────────────┐
│                  服务层 (Service Layer)                       │
│  ┌──────────────────────────────────────────────────────┐   │
│  │        New API 核心引擎 (Go + Gin + GORM)            │   │
│  │  ● 协议适配   ● 智能路由   ● 频率限制                  │   │
│  │  ● 配额管理   ● 日志审计   ● 渠道健康检测              │   │
│  │  ● Token管理  ● 用户分组   ● 企业扩展API              │   │
│  └──────────────────────────────────────────────────────┘   │
└──────────────────────────┬──────────────────────────────────┘
                           ▼
┌─────────────────────────────────────────────────────────────┐
│                   数据层 (Data Layer)                         │
│  ┌───────────────┐  ┌───────────────┐  ┌───────────────┐  │
│  │   MySQL 8.0   │  │   Redis 7     │  │   SQLite      │  │
│  │ ● 用户/渠道   │  │ ● 缓存       │  │ (后端/热备)    │  │
│  │ ● Token/配额  │  │ ● 会话       │  │               │  │
│  │ ● 日志/审计   │  │ ● 频率计数   │  │               │  │
│  │ ● Buffer 4GB  │  │ ● 渠道亲和性 │  │               │  │
│  └───────────────┘  └───────────────┘  └───────────────┘  │
└─────────────────────────────────────────────────────────────┘
                           │
                           ▼
┌─────────────────────────────────────────────────────────────┐
│                    渠道层 (Channel Layer)                     │
│  DeepSeek  ofox.ai  阿里云百炼  硅基流动  七牛云  ...        │
└─────────────────────────────────────────────────────────────┘

架构说明:客户端通过标准 OpenAI/Anthropic/Gemini 协议发起 HTTPS 请求,经 NGINX 四层反向代理和负载均衡后到达 New API 核心引擎。核心引擎根据请求的模型名称,查询渠道路由表,按照优先级和权重选择最佳渠道转发请求,并将响应流式返回给客户端。整条链路上所有请求被记录到 MySQL 数据库用于审计和计费,Redis 用于缓存热点数据和速率限制计数。


第二章 技术架构

2.1 总体架构

TOENK API 基于以下技术栈构建:

| 层级 | 技术组件 | 版本 | 用途 | |:-----|:---------|:----:|:-----| | 编程语言 | Go | 1.22+ | 核心业务逻辑,高并发处理 | | Web 框架 | Gin | v1.9+ | HTTP 路由和中间件 | | ORM | GORM | v1.25+ | 数据库对象关系映射 | | 数据库 | MySQL | 8.0 | 持久化存储(用户/渠道/Token/日志) | | 缓存 | Redis | 7 | 会话缓存、频率限制、渠道亲和性 | | 代理 | NGINX | 1.24+ | TLS 终端、负载均衡、反向代理 | | 前端 | React | 19 | 管理后台 | | 容器 | Docker | 24+ | 服务容器化部署 |

核心设计原则

  1. 无状态:服务层设计为无状态,所有状态数据存储在 MySQL 和 Redis 中,支持水平扩展。
  2. 异步非阻塞:模型调用使用异步非阻塞 I/O,充分利用 Go 协程的并发优势。
  3. 优雅降级:单一渠道故障不影响全局,自动切换到备用渠道。
  4. 热更新:渠道配置、定价策略支持动态更新,无需重启服务。

2.2 网络架构

TOENK API 部署在腾讯云 BGP 主节点(43.164.128.112)和阿里云灾备节点(8.130.160.191),构成主从高可用网络架构:

                        Internet (用户)
                            │
                     HTTPS (443)
                            │
                     ┌──────┴──────┐
                     │  DNS (A记录) │
                     └──────┬──────┘
                            │
              ┌─────────────┼─────────────┐
              │             │             │
        ┌─────┴─────┐ ┌─────┴─────┐ ┌─────┴─────┐
        │  阿里云    │ │ 腾讯云BGP  │ │Cloudflare │
        │  灾备节点  │ │ 主节点     │ │ 代理(规划)│
        │  weight=3  │ │ weight=5  │ │           │
        └─────┬─────┘ └─────┬─────┘ └───────────┘
              │             │
              └──────┬──────┘
                     │
              ┌──────┴──────┐
              │   NGINX     │
              │  负载均衡    │
              └──────┬──────┘
                     │
              ┌──────┴──────┐
              │  New API    │
              │  核心引擎    │
              └──────┬──────┘
                     │
        ┌────────────┼────────────┐
        │            │            │
   ┌────┴────┐ ┌────┴────┐ ┌────┴────┐
   │ MySQL   │ │ Redis   │ │ New API │
   │ 主库    │ │ 缓存    │ │ 从节点  │
   └─────────┘ └─────────┘ └─────────┘

网络配置要点

2.3 安全架构

TOENK API 建立了从网络层到应用层的多层纵深防御体系:

2.3.1 网络层安全

┌────────────────────────────────────────────────────────┐
│                    安全防护全景图                        │
├────────────────────────────────────────────────────────┤
│  网络层                                                │
│  ├── iptables 白名单防火墙                              │
│  │   ├── SSH: 仅授权IP(43.164.191.235) + Docker内网    │
│  │   ├── Web: 80(HTTP跳转) + 443(HTTPS服务)            │
│  │   ├── API: 127.0.0.1 + 主节点IP + Docker内网        │
│  │   ├── ICMP(ping): 允许                              │
│  │   └── 其他端口: 全部 DROP                           │
│  ├── fail2ban 暴力破解防护                              │
│  │   ├── SSH: 3次错误 → 封禁7天                        │
│  │   └── Nginx: 异常请求 → 自动封禁                     │
│  ├── 系统内核加固                                       │
│  │   ├── net.ipv4.tcp_syncookies = 1                   │
│  │   ├── net.ipv4.conf.all.rp_filter = 1               │
│  │   ├── net.ipv4.conf.all.accept_redirects = 0        │
│  │   └── net.ipv4.icmp_echo_ignore_broadcasts = 1      │
│  └── Docker 安全配置                                    │
│      ├── iptables=false (由主机防火墙统一管理)           │
│      ├── live-restore = true                            │
│      └── log-opt max-size=10m                           │
├────────────────────────────────────────────────────────┤
│  应用层                                                │
│  ├── API Key 认证(Bearer Token)                       │
│  ├── 速率限制(60次/分钟/模型)                          │
│  ├── 渠道自动封禁(5次连续失败)                         │
│  ├── IP白名单(Token级别)                              │
│  ├── 分组权限隔离(default/vip/svip)                   │
│  ├── SSRF防护 + 出站IP白名单                            │
│  └── 敏感词过滤                                        │
├────────────────────────────────────────────────────────┤
│  数据层                                                │
│  ├── 数据库加密存储                                    │
│  ├── 密钥分级管理                                      │
│  └── 7天日志保留后自动清理                              │
└────────────────────────────────────────────────────────┘

2.3.2 应用层安全

2.4 高可用架构

TOENK API 通过多层的冗余和自动故障转移机制保证服务可用性 ≥99.9%:

| 层级 | 高可用策略 | 切换时间 | |:-----|:-----------|:---------| | DNS | A 记录指向 NGINX | ~60s (TTL) | | 负载均衡 | NGINX upstream 主从节点(weight 5:3) | < 1s | | 渠道层 | 3 级失败自动重试 + 渠道健康检测 | < 3s | | 数据层 | 每日备份 + 灾备同步 | RTO < 1h | | 容器层 | Docker live-restore + 自动重启 | < 10s |

核心高可用机制

  1. NGINX 健康检查:每隔 10s 检测 upstream 节点 /v1/models 端点健康状态,连续失败 3 次标记为不可用
  2. NGINX 被动检测max_fails=3 fail_timeout=30s,30s 内 3 次失败自动移出负载池
  3. 渠道健康检测:每 10 分钟自动测试所有渠道,返回完整模型列表即为健康
  4. 请求级重试:单个渠道返回 5xx/超时时,自动重试该渠道 3 次,仍失败则切换至优先级次高的渠道
  5. 数据库备份策略:每日 03:00 自动备份 + 实时灾备同步到阿里云从节点

第三章 AI模型接入体系

3.1 支持的模型与渠道

TOENK API 当前已接入 21 个主流 AI 模型,涵盖对话、嵌入、图像理解等能力,通过 4 个上游渠道提供服务:

| 渠道 | 渠道类型 | 权重/优先级 | 覆盖模型 | |:-----|:---------|:-----------:|:---------| | DeepSeek 官方 | 官方直连 | 100(最高)| DeepSeek-V3、DeepSeek-R1、DeepSeek-Chat | | ofox.ai | 聚合平台 | 80(中)| GPT-4o、GPT-5、Claude Opus、Claude Sonnet 4、Gemini 2.5 Flash、Gemini 2.5 Pro、Grok 4.1、Kimi K2.6、Qwen 3.6、GLM-5、Doubao Seed | | 七牛云 | 云厂商 | 70(中)| 基础模型 | | 硅基流动 | 聚合平台 | 60(中)| 国产模型 |

完整模型列表

# 对话/文本生成模型(18个)
DeepSeek-V3         → 通用对话,高性价比
DeepSeek-R1         → 深度推理,链式思维
DeepSeek-Chat       → 轻量对话
GPT-4o              → 多模态旗舰
GPT-5               → 下一代旗舰(ofox渠道)
Claude Opus         → 深度分析/长文
Claude Sonnet 4     → 平衡型
Gemini 2.5 Flash    → 快速响应
Gemini 2.5 Pro      → 深度推理
Grok 4.1            → 开放域
Kimi K2.6           → 长上下文
Qwen 3.6            → 中文优化
GLM-5               → 中文优化
Doubao Seed         → 豆包大模型
Ollama-DeepSeek-R1  → 自托管
Ollama-Qwen-32B     → 自托管
gpt-4o-mini         → 低成本
deepseek-chat       → 等效渠道

# 嵌入模型(3个)
text-embedding-3-small   → 通用嵌入
text-embedding-3-large   → 高精度嵌入
text-embedding-ada-002   → 兼容层

# 图片理解
gpt-4o-vision       → 多模态理解(通过 Chat Completions)

3.2 智能路由分发

TOENK API 的智能路由层是平台的核心能力,它根据请求的模型名称和用户分组,自动选择最优渠道转发请求:

3.2.1 优先级路由

请求模型: deepseek-chat
    │
    ├─▶ DeepSeek 官方 (优先级 100) ──▶ 成功? ──▶ 返回响应
    │       │
    │       ❌ 失败(超时/5xx)
    │       ▼
    ├─▶ ofox.ai (优先级 80) ──▶ 成功? ──▶ 返回响应
    │       │
    │       ❌ 失败
    │       ▼
    ├─▶ 七牛云 (优先级 70) ──▶ 成功? ──▶ 返回响应
    │       │
    │       ❌ 失败
    │       ▼
    └─▶ 硅基流动 (优先级 60) ──▶ 返回响应(或最终失败)

路由优先级权重说明

3.2.2 加权负载均衡

当同一优先级存在多个渠道时,按照配置权重进行负载分发:

渠道A (权重5) ───── 50% 流量
渠道B (权重3) ───── 30% 流量
渠道C (权重2) ───── 20% 流量

3.2.3 渠道亲和性缓存

为防止同一个用户的连续请求分散到不同渠道导致响应不一致,支持基于用户 ID 的渠道亲和性缓存(Redis TTL: 60s):

用户请求 ⟶
    查询 Redis 是否存在该用户的渠道亲和性记录
    ├── 有 ⟶ 继续使用同一渠道
    └── 无 ⟶ 按权重选择新渠道,写入 Redis

3.2.4 自动失败切换

请求 → 渠道A
    ↓ 连续3次失败
渠道A自动标记为「可能不可用」
    ↓ 降低渠道A权重
切换到渠道B
    ↓ 渠道B成功
标记渠道A需要健康检测
    ↓ 10分钟后健康检测
    ├── 通过 → 恢复渠道A权重
    └── 失败 → 自动封禁渠道A

3.3 协议兼容性

TOENK API 通过协议适配层,将不同厂商的 API 协议统一为 OpenAI 兼容格式:

| 厂商 | 原生协议 | TOENK 兼容方式 | |:-----|:---------|:---------------| | OpenAI | Chat Completions / Embeddings / Models | 原生兼容,直接调用 | | OpenAI Responses API | Responses API | 兼容适配(开发中) | | Anthropic Claude | Messages API | 协议转换 → OpenAI 格式 | | Google Gemini | generateContent | 协议转换 → OpenAI 格式 |

协议适配层实现:通过 Go 中间件模式,对入站请求进行协议检测和端点归一化,再转发给对应的渠道适配器。适配器负责将统一的内部请求格式转换为目标厂商的原生协议格式,并将响应转换回 OpenAI 兼容格式。

测试验证

import openai

# 使用标准 OpenAI SDK,仅替换 base_url
client = openai.OpenAI(
    base_url="https://toenk-api.com/v1",
    api_key="sk-your-toenk-token"
)

# 调用 DeepSeek 模型
response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[{"role": "user", "content": "Hello"}]
)

# 调用 GPT-4o(自动路由到 ofox.ai 渠道)
response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Hello"}]
)

# 获取嵌入
response = client.embeddings.create(
    model="text-embedding-3-small",
    input="Hello world"
)

第四章 运营体系

4.1 自动化运维

TOENK API 实现了全自动运维体系,最大程度减少人工干预:

4.1.1 巡检与告警

| 检查项 | 频率 | 触发告警条件 | |:-------|:----:|:-------------| | API 健康检查 | 每 10 分钟 | 连续 3 次 HTTP 非 200 | | 渠道可用性 | 每 10 分钟 | 渠道无法返回模型列表 | | 磁盘使用率 | 每 30 分钟 | 使用率 > 80% | | 数据库连接 | 每 30 分钟 | 连接池耗尽 | | SSL 证书 | 每天 | 距到期 < 30 天 | | Docker 容器 | 每 30 分钟 | 容器非运行状态 | | 系统负载 | 每 30 分钟 | load > CPU 核心数 × 0.7 | | 内存使用 | 每 30 分钟 | 使用率 > 85% |

4.1.2 备份策略

| 备份项 | 频率 | 保留策略 | 存储位置 | |:-------|:----:|:---------|:---------| | MySQL 全量备份 | 每日 03:00 | 7 天轮换 | 主节点磁盘 + 阿里云灾备 | | Redis RDB | 每 6 小时 | 3 天 | 主节点磁盘 | | 渠道配置 | 变更时自动 | — | Git 仓库 | | NGINX 配置 | 变更时自动 | — | Git 仓库 |

4.1.3 SSL 证书管理

4.2 用户运营

4.2.1 额度体系

TOENK API 实行预付费额度制度:

| 用户分组 | 功能 | 额度策略 | |:---------|:-----|:---------| | default | 基础访问 | 按量消耗,支持充值 | | vip | 优先路由 + 更高速率 | 按月套餐 | | svip | 专属渠道 + 定制费率 | 企业合同 |

4.2.2 签到奖励

| 项目 | 内容 | |:-----|:-----| | 每日签到 | 随机获得 10,000-50,000 额度 | | 连续签到 | 每日额度递增 10%,上限 60,000 | | 自动发放 | 每日 00:00 自动执行 | | 技术实现 | 基于 MySQL 触发器 + Redis 每日重置 |

4.2.3 邀请返佣

| 角色 | 奖励 | |:-----|:-----| | 邀请者 | 10 万额度 / 有效受邀用户 | | 被邀请者 | 5 万额度(注册即得) |

技术实现:invite_register=true 配置项启用,用户注册时填写邀请码即可绑定邀请关系。

4.2.4 消费预警

当用户剩余额度低于阈值时,自动触发预警通知:

| 预警等级 | 剩余额度阈值 | 通知方式 | |:---------|:------------:|:---------| | 提醒 | < 50,000 | 系统消息弹窗 | | 警告 | < 10,000 | 站内信 + 浏览器通知 | | 紧急 | < 1,000 | 自动暂停 Token(可手动恢复) |

4.3 安全运营


第五章 安全性保障

5.1 网络安全

TOENK API 在网络安全层面实现了多层纵深防御:

| 安全层级 | 防护措施 | 技术实现 | |:---------|:---------|:---------| | 边界防护 | iptables 白名单 | 只允许必要端口和服务 | | 身份验证 | API Key Token | Bearer Auth,支持 IP 白名单绑定 | | 传输加密 | TLS 1.3 | AES-256-GCM-SHA384,PFS | | DDoS防护 | 连接数限制 | 443端口 ≤ 100 并发 | | 入侵检测 | fail2ban | SSH 3次失败/7天封禁 | | 内核加固 | sysctl 参数 | syncookies/rp_filter/ICMP | | 容器安全 | Docker 配置 | iptables=false/live-restore |

5.2 数据安全

5.3 访问控制

| 功能 | 说明 | |:-----|:------| | API Key认证 | 所有 API 请求必须携带有效 Token | | IP白名单 | Token 级别配置,仅允许指定 IP 段 | | 分组权限隔离 | default/vip/svip 三组隔离,资源独立 | | 速率限制 | 每用户每模型 60次/分钟 | | Token管理 | 支持创建/暂停/删除/额度限制 | | 企业扩展 | 企业用户支持注册制 + 实名认证 |


第六章 性能指标

6.1 基准性能

TOENK API 在高负载场景下的性能基准:

| 指标 | 值 | 说明 | |:-----|:--:|:-----| | API 响应时间 P50 | < 200ms | 从请求到达网关到首 token 返回 | | API 响应时间 P99 | < 500ms | 极端情况下的延迟上限 | | 并发处理能力 | 10,000+ QPS | 基于 NGINX 65,535 workers 理论上限 | | 系统可用性 | ≥ 99.9% | 年内停机时间 ≤ 8.76 小时 | | 模型切换延迟 | < 50ms | 主渠道失败到备渠道响应的切换时间 | | SSL 握手时间 | < 100ms | TLS 1.3 + OCSP Stapling 优化 | | 数据库查询 P50 | < 5ms | MySQL Buffer Pool 4GB 命中率 ≥ 99% |

6.2 负载测试数据

基于实际部署环境的压力测试结果:

MySQL 连接池优化

| 连接池大小 | P99 延迟 | 活跃连接数 | 吞吐量 (QPS) | |:----------:|:--------:|:----------:|:------------:| | 10 | 18ms | 8 | 3,200 | | 25 | 22ms | 20 | 8,500 ✅ | | 50 | 45ms | 35 | 9,100 | | 100 | 120ms | 55 | 9,500 |

结论:连接池甜点值为 25 个连接,此配置下 p99 延迟 22ms,吞吐量 8,500 QPS,资源利用率最优。

NGINX 并发连接测试

| 配置项 | 优化前 | 优化后 | 提升 | |:-------|:-----:|:------:|:----:| | worker_connections | 4,096 | 65,535 | 16× | | worker_processes | auto (2) | auto (2) | — | | keepalive | 未配置 | 64 | 复用优化 | | Gzip 压缩 | 关闭 | 开启 | 传输减少 60% |

缓存层性能

| 缓存类型 | 命中率 | 命中延迟 | Miss 延迟 | |:---------|:------:|:--------:|:---------:| | 渠道亲和性 (Redis) | 92% | < 1ms | 5ms | | 用户额度 (Redis) | 85% | < 1ms | 8ms | | 频率计数 (Redis) | 99% | < 0.5ms | 2ms | | 模型路由 (内存) | 100% | < 0.1ms | — |


第七章 技术路线图

7.1 已完成能力

| # | 能力 | 状态 | 技术要点 | |:-:|:-----|:----:|:---------| | 1 | 多渠道接入 | ✅ | DeepSeek/ofox.ai/七牛云/硅基流动 4 渠道 | | 2 | 21 个模型接入 | ✅ | 覆盖主流对话/嵌入/图像模型 | | 3 | 智能路由分发 | ✅ | 优先级 + 加权 + 亲和性 + 失败切换 | | 4 | OpenAI 协议兼容 | ✅ | /v1/chat/completions + /v1/embeddings + /v1/models | | 5 | Anthropic/Gemini 协议兼容 | ✅ | 协议转换适配层 | | 6 | MySQL + Redis 部署 | ✅ | 4GB Buffer Pool, 25 连接池甜点 | | 7 | NGINX 负载均衡 | ✅ | 主从节点,weight 5:3 | | 8 | TLS 1.3 + HSTS | ✅ | AES-256-GCM-SHA384 | | 9 | iptables 白名单防火墙 | ✅ | 仅授权流量 | | 10 | fail2ban 暴力破解防护 | ✅ | SSH + Nginx 双层 | | 11 | 系统内核加固 | ✅ | syncookies/rp_filter/ICMP | | 12 | 速率限制 | ✅ | 滑动窗口,每用户每模型 60次/分钟 | | 13 | 渠道自动封禁 | ✅ | 5 次失败自动禁用 | | 14 | 自动健康检查 | ✅ | 每 10 分钟渠道级 + 每 30 分钟系统级 | | 15 | 每日数据库备份 | ✅ | 7 天轮换 + 灾备同步 | | 16 | 多用户分组 | ✅ | default/vip/svip | | 17 | 签到奖励系统 | ✅ | 10,000-50,000 随机额度 | | 18 | 邀请返佣系统 | ✅ | 邀请者 10 万 + 被邀请者 5 万 | | 19 | 消费预警 | ✅ | < 5 万额度自动通知 | | 20 | 产品官网 + SEO | ✅ | Landing Page + sitemap.xml + robots.txt | | 21 | 企业注册 + 实名认证 | ✅ | 扩展 API v2.0 能力 | | 22 | 预算控制 | ✅ | 企业套餐维度 | | 23 | 语义缓存 | ✅ | 减少重复调用(基础版本) | | 24 | 智能推荐 | ✅ | 按场景推荐最优模型 |

7.2 进行中

| # | 能力 | 预计完成 | 技术方案 | |:-:|:-----|:--------:|:---------| | 1 | OpenAI Responses API 兼容 | 2026-Q3 | 实现工具调用、流式函数、多轮对话状态管理 | | 2 | Grafana 可视化看板 | 2026-Q3 | Prometheus 指标采集 + Grafana 仪表盘 | | 3 | 用户自助注册开放 | 2026-Q2 | 完善注册流程 + 邮箱验证 + 防滥用 |

7.3 规划中

| # | 能力 | 技术方案 | 优先级 | |:-:|:-----|:---------|:------:| | 1 | Cloudflare 代理加速 | Cloudflare CDN + DDoS 防护 + 边缘缓存 | P1 | | 2 | CI/CD 部署流水线 | GitHub Actions → Docker Build → 自动部署 | P1 | | 3 | 自动扩缩容 | Docker Swarm / K8s 基于 Prometheus 指标 | P2 | | 4 | 高级语义缓存 | Redis 矢量搜索 + 语义相似度匹配 | P2 | | 5 | 数据分析报告 | 消费分析 + 趋势报表 + 工具调用报告 | P2 | | 6 | 更多模型接入 | 持续接入新厂商和开源模型 | P0(持续) |


第八章 开发者接入指南

8.1 快速开始

Python 示例

import openai

# 替换 base_url 和 api_key
client = openai.OpenAI(
    base_url="https://toenk-api.com/v1",
    api_key="your-toenk-token-here"
)

# 1. 查看可用模型列表
models = client.models.list()
for model in models.data:
    print(f"  - {model.id}")

# 2. 通用对话
response = client.chat.completions.create(
    model="deepseek-chat",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "What is the capital of France?"}
    ],
    temperature=0.7,
    max_tokens=1024
)
print(response.choices[0].message.content)

# 3. 流式输出
stream = client.chat.completions.create(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Write a poem about AI."}],
    stream=True
)
for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="")

# 4. 嵌入向量
response = client.embeddings.create(
    model="text-embedding-3-small",
    input="This is a test text for embedding."
)
print(response.data[0].embedding[:10])  # 前 10 维

cURL 示例

# 列出模型
curl https://toenk-api.com/v1/models \
  -H "Authorization: Bearer sk-your-token"

# 对话请求
curl https://toenk-api.com/v1/chat/completions \
  -H "Authorization: Bearer sk-your-token" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-chat",
    "messages": [{"role": "user", "content": "Hello!"}],
    "stream": false
  }'

# 嵌入请求
curl https://toenk-api.com/v1/embeddings \
  -H "Authorization: Bearer sk-your-token" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "text-embedding-3-small",
    "input": "Hello world"
  }'

Node.js 示例

import OpenAI from 'openai';

const client = new OpenAI({
  baseURL: 'https://toenk-api.com/v1',
  apiKey: 'your-toenk-token-here',
});

async function main() {
  const completion = await client.chat.completions.create({
    model: 'claude-sonnet-4',
    messages: [{ role: 'user', content: 'Hello!' }],
  });
  console.log(completion.choices[0].message.content);
}
main();

8.2 模型列表与定价

| 模型 | 输入单价 (元 / 1K tokens) | 输出单价 (元 / 1K tokens) | 说明 | |:-----|:------------------------:|:-------------------------:|:-----| | DeepSeek-Chat | 0.0005 | 0.002 | 通用性价比首选 | | DeepSeek-R1 | 0.002 | 0.008 | 深度推理 | | GPT-4o | 0.015 | 0.060 | 多模态旗舰 | | GPT-5 | 0.025 | 0.100 | 下一代旗舰 | | Claude Sonnet 4 | 0.020 | 0.080 | 平衡型 | | Claude Opus | 0.050 | 0.200 | 深度分析 | | Gemini 2.5 Flash | 0.005 | 0.020 | 快速经济 | | Gemini 2.5 Pro | 0.015 | 0.060 | 深度推理 | | Kimi K2.6 | 0.003 | 0.012 | 长上下文 | | Qwen 3.6 | 0.002 | 0.008 | 中文优化 | | GLM-5 | 0.002 | 0.008 | 中文优化 | | Doubao Seed | 0.003 | 0.012 | 字节跳动 | | text-embedding-3-small | 0.001 | — | 嵌入模型(双向同价) |

定价说明:以上价格为人民币定价,以 1K tokens 为计费单位。所有模型价格均包含渠道成本,TOENK 端不加收平台服务费。具体价格以平台官网实时公示为准。

8.3 错误码说明

| HTTP 状态码 | 错误类型 | 含义 | 处理建议 | |:-----------:|:---------|:-----|:---------| | 200 | OK | 请求成功 | 正常处理 | | 400 | bad_request | 请求参数错误 | 检查请求体格式和必填字段 | | 401 | unauthorized | API Key 无效或未提供 | 检查 Authorization 头 | | 403 | forbidden | API Key 权限不足或已暂停 | 检查 Token 状态和 IP 白名单 | | 429 | rate_limit_exceeded | 速率超限 | 降低请求频率,检查限流配置 | | 500 | server_error | 服务器内部错误 | 重试请求,如持续报错请联系支持 | | 502 | bad_gateway | 上游渠道不可用 | 自动切换到备用渠道,无需干预 | | 503 | service_unavailable | 服务暂不可用 | 等待后重试 |

8.4 最佳实践

模型选择策略

| 使用场景 | 推荐模型 | 理由 | |:---------|:---------|:-----| | 日常对话/客服 | DeepSeek-Chat | 成本最低,中文优秀 | | 代码生成 | GPT-4o / Claude Sonnet 4 | 代码质量最佳 | | 深度推理 | DeepSeek-R1 / Gemini 2.5 Pro | 链式思维 | | 长文档分析 | Claude Opus / Kimi K2.6 | 长上下文窗口 | | 快速响应 | Gemini 2.5 Flash | 首 token 延迟低 | | 中文写作 | Qwen 3.6 / GLM-5 | 中文优化 | | 嵌入检索 | text-embedding-3-small | 性价比高 |

可靠性优化

  1. 实施客户端重试策略:遇到 5xx 错误时,使用指数退避(2s, 4s, 8s)重试最多 3 次
  2. 设置超时时间:建议 Chat Completions 超时设为 60s,流式模式使用 SSE 轮询
  3. 使用备用模型:关键业务配置 2-3 个功能相似的模型,主模型失败时自动降级
  4. 监控消费进度:定期检查 Token 剩余额度,提前充值避免服务中断

第九章 应用场景

9.1 AI 应用开发

TOENK API 适用于需要快速集成 AI 能力的应用开发者:

接入方式:替换 OpenAI SDK 的 base_url 即可,无需学习新协议。

9.2 企业 AI 中台

TOENK API 可为企业搭建统一 AI 能力中台提供基础设施:

| 企业需求 | TOENK 能力 | |:---------|:-----------| | 统一管理多个模型 | 单网关管理 21+ 模型 | | 部门权限隔离 | 多用户分组 + IP 白名单 | | 消费预算控制 | 企业套餐 + 消费预警 | | 审计追踪 | 全请求日志记录 | | 高可用保障 | 主从节点 + 自动灾备 | | 数据安全合规 | TLS 1.3 + 加密存储 |

9.3 科研与教育

9.4 自动化工作流


第十章 结语

TOENK API 旨在成为企业和开发者的首选 AI 模型 API 接入平台。从技术架构上看,我们构建了一个高性能、高可用、高安全的多模型代理网关,将 21 个主流 AI 模型统一到标准的 OpenAI API 接口之下,让开发者以最低的接入成本获得最丰富的模型能力。

从安全上看,我们的纵深防御体系覆盖网络层、传输层、应用层、数据层,经过 iptables 白名单防火墙、fail2ban 入侵检测、速率限制、IP 白名单、渠道自动封禁等多重验证,确保了企业级的安全合规。

从运营上看,全自动的运维体系(10 分钟级健康检查、分钟级故障自动切换、每日备份 + 灾备同步)确保系统持续稳定运行,而签到奖励、邀请返佣、消费预警等运营功能则为用户提供了良好的使用体验。

未来,我们将持续扩展模型覆盖范围、完善企业级功能、提升系统自动化水平,为更多企业和开发者提供专业、可靠、高效的 AI API 服务。

TOENK API — 让 AI 触手可及。


附录

A. 技术参数表

| 参数项 | 主节点 (腾讯云 BGP) | 从节点 (阿里云) | |:-------|:--------------------|:---------------| | 服务器位置 | 43.164.128.112 | 8.130.160.191 | | CPU | 2 Cores | 2 Cores | | 内存 | 8 GB | 7 GB | | 磁盘 | 79 GB (SSD) | 40 GB (SSD) | | 操作系统 | OpenCloudOS | Ubuntu 22.04 | | MySQL Buffer Pool | 4 GB (Docker) | — | | NGINX worker_connections | 65,535 | — | | Docker 版本 | 24+ | 24+ | | 可观测性 | 系统日志 + Docker logs | 系统日志 |

B. 定价表

| 产品 | 价格 | 说明 | |:-----|:----:|:-----| | 免费额度 | 109,999,999 | 新用户注册赠送 | | 按量充值 | 自定义金额 | 10/50/100/200/500 元档 | | 企业基础版 | ¥99/月 | 5 用户,2 个模型组,100 万 token/月 | | 企业专业版 | ¥499/月 | 20 用户,全模型组,不限量 | | 企业旗舰版 | ¥999/月 | 50 用户,VIP 路由优先,专属支持 | | 企业定制版 | ¥4,999/月 | 不限用户,SLA 保障,专属渠道,定制开发 |

C. SLA 条款

| 指标 | 承诺值 | 赔付标准 | |:-----|:------:|:---------| | 月度可用性 | ≥ 99.9% | 低于 99.9% 赔付 10% 月度费用 | | API 响应时间 P99 | ≤ 500ms | 超过 800ms 部分免单 | | 技术支持响应 | 企业版 4h,旗舰版 1h | 超时赔付 5% 月度费用 | | 数据完整性 | ≥ 99.999% | 数据丢失按实际损失赔偿 |

本白皮书所载数据基于 TOENK API 实际部署环境,截至 2026 年 5 月。随着系统持续迭代,部分技术参数和定价可能发生变化,以平台官网公示信息为准。


文档版本: v2.0
最后更新: 2026-05-12
版权声明: © 2026 TOENK. All rights reserved.