卓普云
首页/产品更新/DigitalOcean GPU 与 K8S 新增可观测性指标,实时掌控 AI 性能

DigitalOcean GPU 与 K8S 新增可观测性指标,实时掌控 AI 性能

DigitalOcean 推出 GPU 与 DOKS 免费可观测性指标,零配置监控 AI 工作负载性能瓶颈。

2025年11月19日
DigitalOcean GPU 与 K8S 新增可观测性指标,实时掌控 AI 性能

DigitalOcean 云平台为所有 GPU Droplets 服务器及 DOKS(DigitalOcean Kubernetes Service)集群推出了一套全新的基础可观测性(observability)指标,为你提供强大而简洁的工具,助你监控并优化 AI 工作负载。

为何 GPU 可观测性很重要?

在运行大规模模型训练、推理及复杂数据处理任务时,集群的性能与稳定性至关重要。DigitalOcean 全新推出可观测性功能,助你全面掌握运行状态,高效利用资源,快速定位并解决性能瓶颈。

无需配置,你就可直接在 DigitalOcean Insights 用户界面中,获取 NVIDIA 与 AMD GPU 及其网络接口的实时、细粒度指标数据,覆盖利用率、温度、功耗等关键维度。

DigitalOcean 将新指标划分为五大类别,更加直观,全面呈现 GPU 与 DOKS 集群的运行状态与性能表现:

  • 利用率(Utilization):掌握 GPU 核心与显存的繁忙程度。核心指标包括 GPU 占用率(GPU Occupancy)与显存利用率(Memory Utilization),助你实时优化配置,实现峰值性能。
  • 温度(Temperature):监控热状态,防止过热,确保高负载下稳定运行。
  • 功耗(Power):追踪功耗水平,这对理解 GPU 性能表现与能效至关重要。
  • 降频(Throttle):识别 GPU 是否因温度、功耗或电压限制而主动降频。该指标对诊断突发性性能下降极为关键。
  • 互连(Interconnect):深入了解 GPU 资源间网络接口的性能表现。

零配置、零额外成本

指标的可观测性不应产生任何使用障碍——所以,DigitalOcean 力求让该功能做到简单、无成本:

  • 默认启用:创建 GPU Droplet 服务器时,可观测性功能即自动开启,无需任何额外配置或操作。
  • 免费提供:这些核心可观测性指标已包含在面向 GPU Droplets 的 AI/ML 镜像中,无需额外付费。

DigitalOcean 致力于持续提升 GPU 使用体验,未来还将为可观测性套件添加更多高阶、差异化功能。

DigitalOcean GPU Droplets 的核心优势:

  • 部署简化:DigitalOcean 直观易用的平台让 AI 基础设施的创建与管理变得轻而易举,助你专注于应用开发,而非复杂运维。
  • 高性价比:GPU Droplets 起价仅为每 GPU 每小时 0.76 美元,并提供灵活配置选项(包括单卡与八卡机型),助你根据具体用例精准优化成本。
  • 无缝集成:GPU Droplets 可与你现有的 DigitalOcean 项目无缝协同,并与 DigitalOcean 的 Kubernetes 服务深度集成。
  • 高可靠性:依托 DigitalOcean 久经验证的云基础设施,你可享有企业级 SLA 保障、HIPAA 合规支持与 SOC 2 认证,为业务提供坚实可信的运行底座。

目前,DigitalOcean 云平台的 GPU Droplet 可提供包括 NVIDIA H200/H100、L40S/RTX 系列、AMD MI325X 等,而且最新的 AMD MI350X 与 Blackwell 架构的 NVIDIA GPU 将在未来不久上线如需要提前预订,可直接联系 DigitalOcean 中国区独家战略合作伙伴卓普云 aidroplet.com

相关文章

简化工作流:DigitalOcean App Platform 正式支持环境管理
产品更新

简化工作流:DigitalOcean App Platform 正式支持环境管理

DigitalOcean App Platform 新增环境标签与应用克隆功能,简化多环境管理。

2025年11月26日
DigitalOcean Gradient™ 平台上线 fal 四款多模态 AI 模型:快速生成图像与音频
产品更新

DigitalOcean Gradient™ 平台上线 fal 四款多模态 AI 模型:快速生成图像与音频

来自 fal.ai 的四个多模态 AI 模型已在 DigitalOcean Gradient™ AI 平台上架,现在可通过 Serverless Inference 以公开预览版的形式使用,可用于生成图片、音频。

2025年10月27日
NVIDIA HGX H100 GPU 服务器现已在 DigitalOcean 欧洲数据中心上线
精选
产品更新

NVIDIA HGX H100 GPU 服务器现已在 DigitalOcean 欧洲数据中心上线

DigitalOcean 在欧洲数据中心上线 NVIDIA HGX H100 GPU Droplets,为欧洲开发者提供按需的高性能计算资源,加速 AI 训练与推理。

2025年10月10日