产品 / 面向 AI 开发者
TrainX
正式可用管理员写模板,用户填表单,Kubernetes 跑作业。
TrainX 是 TAIP 的训练引擎。它把临时用 kubectl 提交作业变成一个精心打磨的产品:管理员编写带类型化参数和约定明确脚本的 TrainXJobTemplate;用户填写一张由模板直接渲染出来的表单。TrainX 生成底层的 Kubernetes Job 与 ConfigMap,提交前实时校验用户的 ResourceQuota,运行中流式输出日志、把进度解析成真正的进度条,按需拉起 TensorBoard——作业结束后自动回收。
规格
- 版本
- v1.5.4 — 正式可用
- 底层
- TrainXJob · TrainXJobTemplate CRD → Kubernetes Job
- 可观测
- 实时日志 · 进度解析 · K8s 事件 · TensorBoard
- 内置模板
- LoRA 微调(torchtune、Unsloth)· 评测 · HF 下载
- 语言
- English · 简体中文(界面与文档)
用实证说话
一段代码看明白。
没有私有 SDK,无需改写—— TrainX 在现有工具所在之处完成对接。
# 脚本里按这个格式打印的内容,都会变成进度条
print(f"TRAINX_PROGRESS: {step}/{total} loss={loss:.4f}")
# 作业页面实时呈现,解析自日志流
qwen2.5-lora ████████████░░░░░░░░ 62/100 loss=0.8214▌ 没有 SDK,没有回调钩子——一条 print 语句就是全部集成。日志、事件与 TensorBoard 一并就位。
核心能力
TrainX 为您带来什么
自描述模板
TrainXJobTemplate 携带类型化的参数元数据,Web 表单直接由模板渲染——新增参数只是改一行 YAML,而不是改 UI。表单与 YAML 双向同步。
提交、观察、浏览
实时流式日志,万行日志不卡顿。`TRAINX_PROGRESS: i/N` 日志自动解析成进度条。K8s 事件页签。一键 TensorBoard,作业结束自动回收。内置 PVC 文件浏览器,支持上传下载。
天生多租户
每次运行都是用户命名空间里的一个 TrainXJob CRD。命名空间与实时配额由 ConsoleX 提供——超配额的提交在到达集群之前就被表单拦下。每个作业都打上用户标签,可审计。
适配物理隔离环境
运行时没有任何必需的外部依赖。打包脚本把全部镜像装载进集群本地镜像仓库;同一份 Chart 在联网与物理隔离环境中均可部署——如今已在一个完全物理隔离的生产集群上运行。
工作原理
从模板到运行中的作业,权责清晰交接。
- 步骤 01
管理员编写模板
类型化参数、默认配置、一份约定明确的脚本。保存为 TrainXJobTemplate CRD——可审计、可复用。
- 步骤 02
用户填写表单
Web 表单直接由模板的参数元数据渲染。没有 YAML,没有 kubectl。提交前先过配额校验。
- 步骤 03
观察与迭代
流式日志、解析出的进度条、K8s 事件、一键 TensorBoard。换组参数重跑只需两次点击。
适用团队
为这些团队而建
- 做微调、RLHF 和评测的研究团队
- 不想再手改 Job YAML 的 ML 工程师
- 希望提供规范训练入口的平台团队
搭配使用
其他开发者产品
ConsoleX
正式可用登录即获得受治理的 Kubernetes 工作空间。无需 kubectl,无需提工单。
用户首次 SSO 登录时,自动获得一个隔离的命名空间:配额、默认拒绝的网络策略、存储与 Web 终端——自动开通,持续收敛。
了解更多DevSpace
正式可用几秒钟内在 GPU 上拉起 Jupyter 或 VS Code。闲置环境自动关停。
一键创建 Jupyter、Marimo、Streamlit、Gradio、VS Code 环境——GPU 就绪、按用户经独立认证代理隔离,支持 SSH,默认闲置自动关停。
了解更多ModelSphere
正式可用您自己的 Hugging Face Hub。改一个环境变量,所有客户端照常工作。
自托管、兼容 HF 的模型与数据集仓库:transformers、datasets、huggingface-cli、git-lfs 无需修改即可使用——还配有可浏览的 Hub UI(模型卡、文件查看器、提交历史),并内置 OIDC、审计、配额与公共 Hub 透传缓存。
了解更多