卓普云

DigitalOcean GPU 与 K8S 新增可观测性指标,实时掌控 AI 性能

DigitalOcean 推出 GPU 与 DOKS 免费可观测性指标,零配置监控 AI 工作负载性能瓶颈。

2025年11月19日
DigitalOcean GPU 与 K8S 新增可观测性指标,实时掌控 AI 性能

DigitalOcean 云平台为所有 GPU Droplets 服务器及 DOKS(DigitalOcean Kubernetes Service)集群推出了一套全新的基础可观测性(observability)指标,为你提供强大而简洁的工具,助你监控并优化 AI 工作负载。

为何 GPU 可观测性很重要?

在运行大规模模型训练、推理及复杂数据处理任务时,集群的性能与稳定性至关重要。DigitalOcean 全新推出可观测性功能,助你全面掌握运行状态,高效利用资源,快速定位并解决性能瓶颈。

无需配置,你就可直接在 DigitalOcean Insights 用户界面中,获取 NVIDIA 与 AMD GPU 及其网络接口的实时、细粒度指标数据,覆盖利用率、温度、功耗等关键维度。

DigitalOcean 将新指标划分为五大类别,更加直观,全面呈现 GPU 与 DOKS 集群的运行状态与性能表现:

  • 利用率(Utilization):掌握 GPU 核心与显存的繁忙程度。核心指标包括 GPU 占用率(GPU Occupancy)与显存利用率(Memory Utilization),助你实时优化配置,实现峰值性能。
  • 温度(Temperature):监控热状态,防止过热,确保高负载下稳定运行。
  • 功耗(Power):追踪功耗水平,这对理解 GPU 性能表现与能效至关重要。
  • 降频(Throttle):识别 GPU 是否因温度、功耗或电压限制而主动降频。该指标对诊断突发性性能下降极为关键。
  • 互连(Interconnect):深入了解 GPU 资源间网络接口的性能表现。

零配置、零额外成本

指标的可观测性不应产生任何使用障碍——所以,DigitalOcean 力求让该功能做到简单、无成本:

  • 默认启用:创建 GPU Droplet 服务器时,可观测性功能即自动开启,无需任何额外配置或操作。
  • 免费提供:这些核心可观测性指标已包含在面向 GPU Droplets 的 AI/ML 镜像中,无需额外付费。

DigitalOcean 致力于持续提升 GPU 使用体验,未来还将为可观测性套件添加更多高阶、差异化功能。

DigitalOcean GPU Droplets 的核心优势:

  • 部署简化:DigitalOcean 直观易用的平台让 AI 基础设施的创建与管理变得轻而易举,助你专注于应用开发,而非复杂运维。
  • 高性价比:GPU Droplets 起价仅为每 GPU 每小时 0.76 美元,并提供灵活配置选项(包括单卡与八卡机型),助你根据具体用例精准优化成本。
  • 无缝集成:GPU Droplets 可与你现有的 DigitalOcean 项目无缝协同,并与 DigitalOcean 的 Kubernetes 服务深度集成。
  • 高可靠性:依托 DigitalOcean 久经验证的云基础设施,你可享有企业级 SLA 保障、HIPAA 合规支持与 SOC 2 认证,为业务提供坚实可信的运行底座。

目前,DigitalOcean 云平台的 GPU Droplet 可提供包括 NVIDIA H200/H100、L40S/RTX 系列、AMD MI325X 等,而且最新的 AMD MI350X 与 Blackwell 架构的 NVIDIA GPU 将在未来不久上线如需要提前预订,可直接联系 DigitalOcean 中国区独家战略合作伙伴卓普云 aidroplet.com

首页/产品更新/DigitalOcean GPU 与 K8S 新增可观测性指标,实时掌控 AI 性能

相关文章

DigitalOcean Gradient AI 推理云平台原生集成 LlamaIndex
产品更新

DigitalOcean Gradient AI 推理云平台原生集成 LlamaIndex

DigitalOcean Gradient AI平台原生集成LlamaIndex,通过两个PyPI包简化RAG应用开发,让开发者快速构建生产级AI应用。

2026年3月4日
面向 AI 推理的算力升级:AMD MI350X GPU Droplets云服务器上线
精选
产品更新

面向 AI 推理的算力升级:AMD MI350X GPU Droplets云服务器上线

搭载 AMD MI350X 的 GPU Droplets上线,提升 AI 推理性能与吞吐,兼顾低延迟与成本可控。

2026年2月24日
Claude Opus 4.6 上线 DigitalOcean:百万上下文,一键调用
精选
产品更新

Claude Opus 4.6 上线 DigitalOcean:百万上下文,一键调用

Claude Opus 4.6 通过 DigitalOcean Serverless Inference 正式上线,提供百万级上下文与 Agentic 能力,帮助团队在统一云环境中高效构建、部署并扩展 AI 推理应用。

2026年2月9日