产品 / 面向 AI 开发者
InferX
正式可用在您自己的 GPU 上提供兼容 OpenAI 与 Anthropic 的推理服务——每个 token 都可计量。
InferX 是部署在您自己 Kubernetes 上的 LLM 推理平台。它对外同时提供 OpenAI 与 Anthropic Messages API,对内通过内置预设部署 vLLM、llama.cpp 或 text-embeddings-inference——也可接入您自带的任何 KServe ServingRuntime——并补上多数网关缺失的运维层:一个逻辑模型可由多个部署支撑,具备负载均衡与三态熔断器;按用户与密钥归集成本;按模型统计 P50/P95/P99 延迟;从模板管理 KServe 全生命周期;从 Hugging Face 与 S3 下载模型;自带支持流式、思考模式渲染与 MCP 工具调用的 Playground。除聊天外,如今还提供嵌入与 /v1/rerank,经 /v1/audio/speech(TTS)与 /v1/audio/transcriptions(ASR)的音频、视觉语言模型,以及 KServe v2 / Open Inference Protocol 推理——服务实例还可暂停与恢复,以释放闲置 GPU。路线图将加入策略路由与面向控制回路场景的安全模式。
规格
- 版本
- v2.15 — 正式可用
- 协议
- OpenAI(聊天 · 嵌入 · 重排 · 音频)· Anthropic Messages · KServe v2 · 流式 SSE
- 运行时
- vLLM · llama.cpp · text-embeddings-inference 预设 · 任意 KServe ServingRuntime
- 硬件
- NVIDIA · AMD · Intel · 昇腾 · 寒武纪 — 自动识别
- 路由
- 单模型多部署 · 加权负载均衡 · 熔断器
用实证说话
一段代码看明白。
没有私有 SDK,无需改写—— InferX 在现有工具所在之处完成对接。
from openai import OpenAI
client = OpenAI(
base_url="https://inferx.intra.example/api", # ← 唯一的改动
api_key=os.environ["INFERX_API_KEY"],
)
# Anthropic SDK 与 claude-code 同理,经 /anthropic/v1 接入
# 每个请求都进入大盘:成本 · P50/P95/P99 · 错误率▌ OpenAI 与 Anthropic SDK 均可直接替换,支持流式——并带按密钥的预算、限流与模型白名单。
核心能力
InferX 为您带来什么
兼容 OpenAI 与 Anthropic——且多模态
直接替换 /v1/chat/completions、/v1/embeddings、/v1/rerank、/v1/audio/speech 与 /v1/audio/transcriptions,外加 /anthropic/v1/messages 与 KServe v2 /v2/models/:model/infer——全部支持流式 SSE。把现有 SDK 或 claude-code 指向 InferX,只需改 base URL。Provider 原生进程内实现——请求路径上没有额外代理跳转。
多厂商 GPU 与 KServe 原生
自动识别 NVIDIA、AMD、Intel、华为昇腾与寒武纪。从类型化模板部署 InferenceService——vLLM 预设(AWQ、BF16)、经 llama.cpp 的 GGUF、text-embeddings-inference 与视觉语言模型,也可使用您自带的任何 ServingRuntime——并可在界面内从服务一路下钻到 Pod 与日志。暂停闲置部署以释放其 GPU,并按需恢复。
按模型的成本、延迟与错误
每个请求都经 OTEL 埋点。P50/P95/P99 延迟、错误率与 token 级成本,按模型、按用户、按 API 密钥归集——并支持预算、限流与余额归零自动停用。
为智能体而建
一个模型、多个部署:加权负载均衡搭配三态熔断器,首 token 前自动切换。Playground 支持 MCP 与思考模式渲染。路线图:会话亲和、策略路由,以及校验 / 共识 / 人工介入安全模式。
工作原理
从模型权重到可计量的推理端点。
- 步骤 01
部署模型
选择运行时模板——vLLM 或 GGUF 预设,或您自己的 ServingRuntime——指向放权重的 PVC,点击部署。多厂商 GPU 自动识别。
- 步骤 02
获得端点
OpenAI 与 Anthropic 兼容的 URL,两者均支持流式 SSE。API 密钥带限流、预算与模型白名单。
- 步骤 03
看住成本与延迟
每个请求都经 OTEL 埋点。P50/P95/P99、错误率与成本按模型、按密钥归集——大盘里直接可见。
适用团队
为这些团队而建
- 在专属算力上交付 LLM 产品的团队
- 统一推理成本与访问入口的平台团队
- 有安全与审计需求的智能体系统开发者
搭配使用
其他开发者产品
ConsoleX
正式可用登录即获得受治理的 Kubernetes 工作空间。无需 kubectl,无需提工单。
用户首次 SSO 登录时,自动获得一个隔离的命名空间:配额、默认拒绝的网络策略、存储与 Web 终端——自动开通,持续收敛。
了解更多DevSpace
正式可用几秒钟内在 GPU 上拉起 Jupyter 或 VS Code。闲置环境自动关停。
一键创建 Jupyter、Marimo、Streamlit、Gradio、VS Code 环境——GPU 就绪、按用户经独立认证代理隔离,支持 SSH,默认闲置自动关停。
了解更多TrainX
正式可用管理员写模板,用户填表单,Kubernetes 跑作业。
自描述的训练模板直接渲染成 UI 表单——提交前实时校验配额,运行中流式日志、解析进度条,一键 TensorBoard。
了解更多