卓普云

DigitalOcean GPU 与 K8S 新增可观测性指标,实时掌控 AI 性能

DigitalOcean 推出 GPU 与 DOKS 免费可观测性指标,零配置监控 AI 工作负载性能瓶颈。

2025年11月19日
DigitalOcean GPU 与 K8S 新增可观测性指标,实时掌控 AI 性能

DigitalOcean 云平台为所有 GPU Droplets 服务器及 DOKS(DigitalOcean Kubernetes Service)集群推出了一套全新的基础可观测性(observability)指标,为你提供强大而简洁的工具,助你监控并优化 AI 工作负载。

为何 GPU 可观测性很重要?

在运行大规模模型训练、推理及复杂数据处理任务时,集群的性能与稳定性至关重要。DigitalOcean 全新推出可观测性功能,助你全面掌握运行状态,高效利用资源,快速定位并解决性能瓶颈。

无需配置,你就可直接在 DigitalOcean Insights 用户界面中,获取 NVIDIA 与 AMD GPU 及其网络接口的实时、细粒度指标数据,覆盖利用率、温度、功耗等关键维度。

DigitalOcean 将新指标划分为五大类别,更加直观,全面呈现 GPU 与 DOKS 集群的运行状态与性能表现:

  • 利用率(Utilization):掌握 GPU 核心与显存的繁忙程度。核心指标包括 GPU 占用率(GPU Occupancy)与显存利用率(Memory Utilization),助你实时优化配置,实现峰值性能。
  • 温度(Temperature):监控热状态,防止过热,确保高负载下稳定运行。
  • 功耗(Power):追踪功耗水平,这对理解 GPU 性能表现与能效至关重要。
  • 降频(Throttle):识别 GPU 是否因温度、功耗或电压限制而主动降频。该指标对诊断突发性性能下降极为关键。
  • 互连(Interconnect):深入了解 GPU 资源间网络接口的性能表现。

零配置、零额外成本

指标的可观测性不应产生任何使用障碍——所以,DigitalOcean 力求让该功能做到简单、无成本:

  • 默认启用:创建 GPU Droplet 服务器时,可观测性功能即自动开启,无需任何额外配置或操作。
  • 免费提供:这些核心可观测性指标已包含在面向 GPU Droplets 的 AI/ML 镜像中,无需额外付费。

DigitalOcean 致力于持续提升 GPU 使用体验,未来还将为可观测性套件添加更多高阶、差异化功能。

DigitalOcean GPU Droplets 的核心优势:

  • 部署简化:DigitalOcean 直观易用的平台让 AI 基础设施的创建与管理变得轻而易举,助你专注于应用开发,而非复杂运维。
  • 高性价比:GPU Droplets 起价仅为每 GPU 每小时 0.76 美元,并提供灵活配置选项(包括单卡与八卡机型),助你根据具体用例精准优化成本。
  • 无缝集成:GPU Droplets 可与你现有的 DigitalOcean 项目无缝协同,并与 DigitalOcean 的 Kubernetes 服务深度集成。
  • 高可靠性:依托 DigitalOcean 久经验证的云基础设施,你可享有企业级 SLA 保障、HIPAA 合规支持与 SOC 2 认证,为业务提供坚实可信的运行底座。

目前,DigitalOcean 云平台的 GPU Droplet 可提供包括 NVIDIA H200/H100、L40S/RTX 系列、AMD MI325X 等,而且最新的 AMD MI350X 与 Blackwell 架构的 NVIDIA GPU 将在未来不久上线如需要提前预订,可直接联系 DigitalOcean 中国区独家战略合作伙伴卓普云 aidroplet.com

首页/产品更新/DigitalOcean GPU 与 K8S 新增可观测性指标,实时掌控 AI 性能

相关文章

DigitalOcean容器注册表推出多注册表支持功能
产品更新

DigitalOcean容器注册表推出多注册表支持功能

DigitalOcean容器注册表升级,专业版客户现可在一个团队下免费创建最多10个独立注册表,极大提升了部署的灵活性与隔离性。

2026年1月12日
加速 JavaScript 开发:DigitalOcean 应用托管现已原生支持 Bun
产品更新

加速 JavaScript 开发:DigitalOcean 应用托管现已原生支持 Bun

App Platform 现已原生支持 Bun 运行时,无需配置即可享受极速构建与部署,为现代 JavaScript 应用提供全栈加速。

2025年12月29日
代码优先!DigitalOcean Gradient AI 知识库迎来重大升级
产品更新

代码优先!DigitalOcean Gradient AI 知识库迎来重大升级

DigitalOcean近期升级了Gradient AI知识库功能,推出全新“代码优先”体验。该功能允许开发者完全通过代码创建、管理和查询知识库,以简化构建RAG系统的流程。目前此增强功能已进入公共预览阶段。

2025年12月23日