DigitalOcean GPU 与 K8S 新增可观测性指标,实时掌控 AI 性能
DigitalOcean 推出 GPU 与 DOKS 免费可观测性指标,零配置监控 AI 工作负载性能瓶颈。

DigitalOcean 云平台为所有 GPU Droplets 服务器及 DOKS(DigitalOcean Kubernetes Service)集群推出了一套全新的基础可观测性(observability)指标,为你提供强大而简洁的工具,助你监控并优化 AI 工作负载。
为何 GPU 可观测性很重要?
在运行大规模模型训练、推理及复杂数据处理任务时,集群的性能与稳定性至关重要。DigitalOcean 全新推出可观测性功能,助你全面掌握运行状态,高效利用资源,快速定位并解决性能瓶颈。
无需配置,你就可直接在 DigitalOcean Insights 用户界面中,获取 NVIDIA 与 AMD GPU 及其网络接口的实时、细粒度指标数据,覆盖利用率、温度、功耗等关键维度。
DigitalOcean 将新指标划分为五大类别,更加直观,全面呈现 GPU 与 DOKS 集群的运行状态与性能表现:
- 利用率(Utilization):掌握 GPU 核心与显存的繁忙程度。核心指标包括 GPU 占用率(GPU Occupancy)与显存利用率(Memory Utilization),助你实时优化配置,实现峰值性能。
- 温度(Temperature):监控热状态,防止过热,确保高负载下稳定运行。
- 功耗(Power):追踪功耗水平,这对理解 GPU 性能表现与能效至关重要。
- 降频(Throttle):识别 GPU 是否因温度、功耗或电压限制而主动降频。该指标对诊断突发性性能下降极为关键。
- 互连(Interconnect):深入了解 GPU 资源间网络接口的性能表现。
零配置、零额外成本
指标的可观测性不应产生任何使用障碍——所以,DigitalOcean 力求让该功能做到简单、无成本:
- 默认启用:创建 GPU Droplet 服务器时,可观测性功能即自动开启,无需任何额外配置或操作。
- 免费提供:这些核心可观测性指标已包含在面向 GPU Droplets 的 AI/ML 镜像中,无需额外付费。
DigitalOcean 致力于持续提升 GPU 使用体验,未来还将为可观测性套件添加更多高阶、差异化功能。
DigitalOcean GPU Droplets 的核心优势:
- 部署简化:DigitalOcean 直观易用的平台让 AI 基础设施的创建与管理变得轻而易举,助你专注于应用开发,而非复杂运维。
- 高性价比:GPU Droplets 起价仅为每 GPU 每小时 0.76 美元,并提供灵活配置选项(包括单卡与八卡机型),助你根据具体用例精准优化成本。
- 无缝集成:GPU Droplets 可与你现有的 DigitalOcean 项目无缝协同,并与 DigitalOcean 的 Kubernetes 服务深度集成。
- 高可靠性:依托 DigitalOcean 久经验证的云基础设施,你可享有企业级 SLA 保障、HIPAA 合规支持与 SOC 2 认证,为业务提供坚实可信的运行底座。
目前,DigitalOcean 云平台的 GPU Droplet 可提供包括 NVIDIA H200/H100、L40S/RTX 系列、AMD MI325X 等,而且最新的 AMD MI350X 与 Blackwell 架构的 NVIDIA GPU 将在未来不久上线,如需要提前预订,可直接联系 DigitalOcean 中国区独家战略合作伙伴卓普云 aidroplet.com。



