GPUStack

GPUStack

开源的GPU集群管理平台

打开网站

产品简介

GPUStack 是一款面向企业与开发者的开源 GPU 集群管理平台,致力于把分散在笔记本、台式机、服务器上的 NVIDIA、AMD、Apple Silicon、Ascend 等异构 GPU 资源整合为统一的算力池,并以“LLM-as-a-Service”形式对外提供大模型推理服务。它屏蔽了 Kubernetes、驱动、调度、负载均衡、故障恢复等底层复杂度,管理员可通过 Web UI 一键部署来自 Hugging Face、ModelScope 或本地路径的 LLM、VLM、Embedding、Rerank、图像、语音等多模态模型;开发者则像调用 OpenAI API 一样,使用标准 HTTP 或 SDK 即可访问私有大模型,实现 RAG、Agent、Copilot 等生成式 AI 应用。GPUStack 支持单节点到多节点分布式推理、自动故障重启、资源监控、用量计量、RBAC 权限控制,可在 macOS、Windows、Linux 上离线或在线运行,帮助组织在本地、机房或混合云环境中快速落地安全可控的大模型服务。

主要功能

  • 异构 GPU 统一纳管:自动发现并聚合 NVIDIA、AMD、Apple、Ascend 等多品牌 GPU 资源,实现跨平台算力池化。
  • 多推理引擎兼容:内置 vLLM、llama-box、MindIE、vox-box 等后端,可按模型需求动态选择或并行运行多版本引擎。
  • 分布式推理与弹性伸缩:支持单节点多卡及跨节点张量并行,自动把超大模型切分到多台机器,实现水平扩展。
  • 企业级高可用:提供模型实例冗余、自动故障检测与指数退避重启、负载均衡,保障生产级 SLA。
  • 零侵入 API:100% 兼容 OpenAI 协议,原有 Chat、Embedding、Audio、Image 等接口无需改造即可迁移。
  • 可视化运维:Web 仪表盘实时展示 GPU 利用率、模型吞吐、Token 用量、API 调用排行,支持报警与日志追踪。
  • 多租户与权限:RBAC 角色管理、API Key 分级、配额限流,满足企业安全合规与成本核算需求。
  • 模型生命周期管理:一键部署、灰度升级、版本回滚、离线导入、下载缓存、自动兼容性检查,降低运维负担。

使用方法

  1. 安装:在 Linux/macOS 执行curl -sfL https://get.gpustack.ai | sh -,Windows 以管理员 PowerShell 运行Invoke-Expression (Invoke-WebRequest -Uri "https://get.gpustack.ai" -UseBasicParsing).Content
  2. 登录:浏览器访问http://,使用首次生成的 admin 密码进入控制台。
  3. 添加节点:在其他机器执行相同安装脚本并附加--server-url--token参数,即可组成 GPU 集群。
  4. 部署模型:在“Models”页面点击“Deploy Model”,选择 Hugging Face/本地路径,填写模型名称与参数后保存。
  5. 获取 API Key:进入“API Keys”创建新密钥,复制备用。
  6. 调用服务:在 Playground 调试后,通过标准 OpenAI 客户端或 curl 发送请求,如curl -H "Authorization: Bearer " http:///v1/chat/completions -d {...}
  7. 监控与扩容:在 Dashboard 观察 GPU 与模型指标,按需添加节点或调整副本数。

应用场景

  • 企业内部私有化大模型服务:在本地机房或混合云部署专属 ChatGPT,保障数据不出境。
  • 高校与科研机构算力共享:把实验室分散的 GPU 整合为统一平台,供师生在线调用各类开源模型。
  • 离线或边缘环境推理:在断网工厂、车载设备、边缘节点上通过 CPU+GPU 混合运行轻量化模型。
  • 多模态 AI 应用落地:一站式托管文本、图像、语音、Embedding、Rerank 模型,快速构建 RAG 知识库与智能客服。
  • 开发测试与持续集成:利用 GPUStack Playground 进行 Prompt 工程、模型对比、性能压测,再无缝迁移到生产集群。

首页截图

GPUStack

若有收获,就点个赞吧

数据统计

相关导航

暂无评论

none
暂无评论...