产品 / 面向平台管理员

TAIP Admin

正式可用

整个 AI 集群尽收一屏。kubectl 变成可选项。

TAIP Admin 是为 AI 基础设施量身打造的 Web 管理控制台。一个 Go 二进制同时提供 API 与前端。它自动识别 metrics-server、Kueue、KServe、Training Operator、cert-manager、Gateway API、DRA 与 VPA——相应 API 出现时功能自动启用，消失时对应页面自动隐藏；Prometheus、Alertmanager 与 Grafana 则各填一个 URL 即可接入，缺失时平滑降级。资源核算分三层：仅凭 K8s API 即可看请求量与容量，配 metrics-server 看实时用量，配 Prometheus 看 30 天历史。它是认真工程化的产物：通过仅读取元数据，列出 617 个 Secret 只需 0.5 秒而非 62 秒——且 Secret 的值永远不会到达浏览器。

全部产品

规格

版本: v1.6.8 — 正式可用
体量: 单个 Go 二进制 · 一次 Helm 发布 · amd64 + arm64
自动识别: metrics-server · Kueue · KServe · Training Operator · cert-manager · Gateway API · DRA · VPA
可接入: Prometheus · Alertmanager · Grafana — 各一个 URL，可选
GPU 遥测: 单卡级 — NVIDIA DCGM · 昇腾 NPU：利用率、显存、温度、功耗
角色: OIDC · 管理员/只读双角色 · Secret 值不出集群
语言: English · 简体中文

用实证说话

一段代码看明白。

没有私有 SDK，无需改写—— TAIP Admin 在现有工具所在之处完成对接。

集成自动启用

$ helm install taip-admin taip/taip-admin
已识别   metrics-server ✓  kueue ✓  kserve ✓  cert-manager ✓
已识别   gateway-api ✓  dra ✓  vpa ✓  training-operator ✓
已接入   prometheus ✓  alertmanager ✓  grafana ✓   # 各填一个 URL
# 移除某个组件，对应页面随之自动隐藏
# 617 个 Secret 0.5 秒列出（仅元数据）· 值永不离开集群▌

一个二进制，一次 Helm 发布。控制台随您的技术栈自动扩展或收起——跨 Kueue 版本，无需重新构建。

核心能力

TAIP Admin 为您带来什么

GPU 与 AI 工作负载是核心对象

扩展资源、DRA 设备浏览，以及 NVIDIA DCGM 与昇腾 NPU 的单卡级遥测——利用率、显存、温度、功耗。集群 GPU 热力图按归属展示闲置与活跃容量，并提供拓扑与 MIG。KServe InferenceService 与 ServingRuntime，以及基于 API 发现的 Kueue 队列管理——一个二进制通吃各版本。

三层资源核算

仅凭 K8s API 即可看请求、上限与容量；有 metrics-server 时叠加实时 CPU 与内存；配置 Prometheus 后呈现 1 小时到 30 天历史。同一套界面随技术栈伸缩——且足够快：617 个 Secret 列出用 0.5 秒，而不是 62 秒。

告警、静默与 Grafana 深度链接

按严重级着色的告警表格，一键创建静默并自动带入告警的匹配条件。侧边栏实时告警角标。Open-in-Grafana 按钮自动携带集群、节点、命名空间与 Pod 上下文。可在控制台中配置外发接收端——邮件/SMTP 或 CloudSentry webhook。

应急作战的 War Room

全屏 NOC 大盘：自动刷新、实时事件流、带单节点迷你仪表的节点矩阵与资源面板——为值班与大屏而生。节点 cordon 与 drain 支持实时驱逐进度。

审计链、闲置回收与应用目录

结构化记录每一次变更类管理操作的审计日志，并可选持久化历史、在应用内查询。闲置资源检测标记出闲置 GPU、不活跃的 Notebook 与陈旧作业以便回收。OCI/Helm 应用目录可浏览仓库中的 Chart，并通过向导完成安装——双语用户指南也随二进制内置。

身份、拓扑与队列分析

在控制台中管理平台用户与组、会话与 MFA 设备。可视化集群层级与节点内 NUMA 拓扑。查看 Kueue 队列分析——等待时间、队列深度、公平性与抢占——并维护 taip-portal 应用目录、广播公告。

工作原理

装上它，然后开始运维集群。

步骤 01

指向一个集群

一个 Go 二进制、一次 Helm 发布、一个可选 CRD。OIDC 单点登录。整个控制台就是一个进程。
步骤 02

集成自动启用

Kueue、KServe、DRA、VPA、cert-manager、Gateway API——从集群自动识别。Prometheus、Alertmanager、Grafana 各填一个 URL 即可。
步骤 03

运维与响应

按严重级着色的告警、一键静默、War Room 大盘、实时事件流、节点 cordon 与 drain——全程不必再开 kubectl。

适用团队

为这些团队而建

运营共享 AI 集群的平台工程师
排查事故的值班工程师
审计与只读查看者（内置管理员/只读双角色）