产品 / 面向平台管理员
TAIP Admin
正式可用整个 AI 集群尽收一屏。kubectl 变成可选项。
TAIP Admin 是为 AI 基础设施量身打造的 Web 管理控制台。一个 Go 二进制同时提供 API 与前端。它自动识别 metrics-server、Kueue、KServe、Training Operator、cert-manager、Gateway API、DRA 与 VPA——相应 API 出现时功能自动启用,消失时对应页面自动隐藏;Prometheus、Alertmanager 与 Grafana 则各填一个 URL 即可接入,缺失时平滑降级。资源核算分三层:仅凭 K8s API 即可看请求量与容量,配 metrics-server 看实时用量,配 Prometheus 看 30 天历史。它是认真工程化的产物:通过仅读取元数据,列出 617 个 Secret 只需 0.5 秒而非 62 秒——且 Secret 的值永远不会到达浏览器。
规格
- 版本
- v1.6.8 — 正式可用
- 体量
- 单个 Go 二进制 · 一次 Helm 发布 · amd64 + arm64
- 自动识别
- metrics-server · Kueue · KServe · Training Operator · cert-manager · Gateway API · DRA · VPA
- 可接入
- Prometheus · Alertmanager · Grafana — 各一个 URL,可选
- GPU 遥测
- 单卡级 — NVIDIA DCGM · 昇腾 NPU:利用率、显存、温度、功耗
- 角色
- OIDC · 管理员/只读双角色 · Secret 值不出集群
- 语言
- English · 简体中文
用实证说话
一段代码看明白。
没有私有 SDK,无需改写—— TAIP Admin 在现有工具所在之处完成对接。
$ helm install taip-admin taip/taip-admin
已识别 metrics-server ✓ kueue ✓ kserve ✓ cert-manager ✓
已识别 gateway-api ✓ dra ✓ vpa ✓ training-operator ✓
已接入 prometheus ✓ alertmanager ✓ grafana ✓ # 各填一个 URL
# 移除某个组件,对应页面随之自动隐藏
# 617 个 Secret 0.5 秒列出(仅元数据)· 值永不离开集群▌ 一个二进制,一次 Helm 发布。控制台随您的技术栈自动扩展或收起——跨 Kueue 版本,无需重新构建。
核心能力
TAIP Admin 为您带来什么
GPU 与 AI 工作负载是核心对象
扩展资源、DRA 设备浏览,以及 NVIDIA DCGM 与昇腾 NPU 的单卡级遥测——利用率、显存、温度、功耗。集群 GPU 热力图按归属展示闲置与活跃容量,并提供拓扑与 MIG。KServe InferenceService 与 ServingRuntime,以及基于 API 发现的 Kueue 队列管理——一个二进制通吃各版本。
三层资源核算
仅凭 K8s API 即可看请求、上限与容量;有 metrics-server 时叠加实时 CPU 与内存;配置 Prometheus 后呈现 1 小时到 30 天历史。同一套界面随技术栈伸缩——且足够快:617 个 Secret 列出用 0.5 秒,而不是 62 秒。
告警、静默与 Grafana 深度链接
按严重级着色的告警表格,一键创建静默并自动带入告警的匹配条件。侧边栏实时告警角标。Open-in-Grafana 按钮自动携带集群、节点、命名空间与 Pod 上下文。可在控制台中配置外发接收端——邮件/SMTP 或 CloudSentry webhook。
应急作战的 War Room
全屏 NOC 大盘:自动刷新、实时事件流、带单节点迷你仪表的节点矩阵与资源面板——为值班与大屏而生。节点 cordon 与 drain 支持实时驱逐进度。
审计链、闲置回收与应用目录
结构化记录每一次变更类管理操作的审计日志,并可选持久化历史、在应用内查询。闲置资源检测标记出闲置 GPU、不活跃的 Notebook 与陈旧作业以便回收。OCI/Helm 应用目录可浏览仓库中的 Chart,并通过向导完成安装——双语用户指南也随二进制内置。
身份、拓扑与队列分析
在控制台中管理平台用户与组、会话与 MFA 设备。可视化集群层级与节点内 NUMA 拓扑。查看 Kueue 队列分析——等待时间、队列深度、公平性与抢占——并维护 taip-portal 应用目录、广播公告。
工作原理
装上它,然后开始运维集群。
- 步骤 01
指向一个集群
一个 Go 二进制、一次 Helm 发布、一个可选 CRD。OIDC 单点登录。整个控制台就是一个进程。
- 步骤 02
集成自动启用
Kueue、KServe、DRA、VPA、cert-manager、Gateway API——从集群自动识别。Prometheus、Alertmanager、Grafana 各填一个 URL 即可。
- 步骤 03
运维与响应
按严重级着色的告警、一键静默、War Room 大盘、实时事件流、节点 cordon 与 drain——全程不必再开 kubectl。
适用团队
为这些团队而建
- 运营共享 AI 集群的平台工程师
- 排查事故的值班工程师
- 审计与只读查看者(内置管理员/只读双角色)