承载 1.8 亿次互动：Hippocratic AI 联合 DigitalOcean 升级下一代 AI 原生推理架构

Hippocratic AI 致力于构建生成式 AI 智能体，它们可以致电患者、指导术后康复计划、跟进慢性病管理，并协助弥补可能被疏忽的医疗服务缺口。该公司的 Polaris 星座架构（Polaris constellation architecture）采用一个核心主模型来主导每次患者对话，同时有 20 多个专业支持模型并行运行，以此减少幻觉、提供临床依据，并对主模型的输出进行安全性交叉检查。截至目前，Hippocratic AI 在慢性病管理、服药依从性、医疗缺口填补和临床排程等方面已实现超过 1.8 亿次患者互动，其运行规模已达到了让“基础设施性能”与“患者安全”两者界限相融合的境地。通过与 DigitalOcean 在 NVIDIA GPU 架构上的紧密合作，Hippocratic AI 在超过 1000 万次真实患者通话中达到了 99.9% 的临床安全评分，并在实时临床对话所需的低延迟下，支持了 2 倍的生产环境推理吞吐量。

在通话中途断线的服药依从性提醒电话，绝不仅仅是一个用户体验缺陷，而是一次医疗中断。由 DigitalOcean 设计、运行在 NVIDIA Hopper 和 Blackwell Ultra 硬件上，并根据 Hippocratic AI 临床需求量身定制的生产堆栈，已经成功交出了答卷。

以下是 Hippocratic AI 在 DigitalOcean 的 AI 原生云（AI-Native Cloud）上取得的成果：

2 倍生产环境推理吞吐量：通过使用 NVIDIA H200 和 B300 GPU 的平台级推理优化得以实现。
P99 端到端延迟降低 40%：通过将 DigitalOcean 的基础设施与 Hippocratic AI 的模型级优化相结合得以实现。
Prefill（预填充）延迟降低至原有一半：在长上下文临床会话中，相比上一代无状态服务配置，延迟缩减了 2 倍。
单节点吞吐量提升约 30%：由硬件感知调度、模型量化（如 NVIDIA B300 GPU 节点上的 NVFP4 方法）以及定制内核驱动。

为医疗 AI 选择云合作伙伴

Hippocratic AI 的 Polaris 系统编排了一个由 22 个专用大语言模型组成的架构，参数总量达 4.2 万亿。这些模型与患者进行实时的语音和文本交互，每次对话都要求亚秒级的响应速度，且对会话中途故障的容忍度为零。该系统已在超过 1000 万次真实患者通话中保持了 99.9% 的临床安全评分，平均患者满意度高达 8.95 分（满分 10 分），并获得了 7,500 多名临床医护人员的验证。

为了在生产规模下保持 400 毫秒的中位数首字延迟（time-to-first-token），Hippocratic AI 必须在最新可用的 GPU 硬件上运行。该公司在内部运行着多云基础设施，不同的模型架构需要不同类型的 GPU。

“NVIDIA 拥有令人惊叹的硬件，比如 Hopper 和 Blackwell GPU，而 DigitalOcean 堪称我们以最快速度获取这些硬件的核心合作伙伴之一，”Hippocratic AI 联合创始人 Debajyoti Datta 表示。

Hippocratic AI 此前一直在寻找能够支持其规模化发展的云合作伙伴，而事实证明，DigitalOcean 是获取最新 NVIDIA 硬件的最快路径之一。DigitalOcean 不仅提供了对 NVIDIA HGX™ B300 GPU 节点的早期访问权限和对 NVIDIA H200 节点的即时访问权限，还在针对持续推理负载进行优化的平台上提供了手把手的工程支持。Hippocratic AI 的团队通过 DigitalOcean 将生产负载顺利迁移到了 NVIDIA GPU 上，双方的合作自此不断加深。

“我们的合作基于一个共识：我们必须处于最新的硬件之上，并拥有最出色的推理堆栈，”Datta 说道。

打造保障患者安全的推理堆栈

在过去的一年里，DigitalOcean 与 Hippocratic AI 及 NVIDIA 紧密合作，对推理路径的每一层进行了优化。结合 Hippocratic AI 的真实生产需求，凭借对 NVIDIA HGX™ B300 GPU 的早期访问权以及对 Hopper 和 Blackwell 架构的深度技术支持，DigitalOcean 对其 AI 原生云进行了工程改造以满足这一严苛标准。其成果包括：硬件感知调度、针对持续高并发负载优化的推理运行时，以及对 FP8 和 NVFP4 量化、定制 MoE（混合专家模型）内核、KV 缓存优化和缓存感知路由架构的平台级支持。这种路由架构最大程度地提高了长周期临床会话中的 KV 缓存命中率和上下文复用率。

在长上下文临床会话中，这些联合优化的成果带来了约 30% 的单节点吞吐量提升，且与上一代无状态服务配置相比，预填充延迟降低了一半。这些进展与 Hippocratic AI 在 2026 年 4 月的 DigitalOcean Deploy 大会上宣布的生产环境改进相得益彰，当时该公司报告称其生产推理吞吐量提高了 2 倍，端到端 P99 延迟降低了 40%。

对于 Hippocratic AI 而言，这些绝非抽象的基准测试数据。达到延迟目标意味着系统可以在通话中途生成思考 Token（thinking tokens），从而使更新后的软硬件堆栈带来了 4 倍的吞吐量提升。这意味着在保持相同质量水平的前提下，能够支持更多并发的患者会话，从而实现从试点向全民规模的跨越。

“安全关键型 AI 负载的需求与消费级应用有着本质的不同。DigitalOcean 和 Hippocratic AI 展示了基于 NVIDIA H200 和 B300 硬件的紧密集成基础设施（打破软件和硬件的物理边界，云服务器的每一条连线、每一个调度算法，都是为了跑这个 AI 模型而优化和定制的）与推理优化，如何在规模化运行时同时兼顾高性能与高可靠性，”NVIDIA 加速计算产品总监 Dave Salvator 解释道。

得益于 DigitalOcean 与 NVIDIA 的合作，Hippocratic AI 也是首批在 NVIDIA HGX™ B300 硬件上运行生产负载的客户之一。对于每一个 Token 都会影响临床体验的业务负载，NVIDIA Blackwell Ultra 实现了单节点容量的阶跃式提升。它允许 Hippocratic AI 在相同的延迟目标下支持更多的并发会话，并在漫长的临床对话中扩展上下文窗口。NVIDIA B300 GPU 节点还支持更先进的量化方法（如 NVFP4），在吞吐量和延迟方面带来了可衡量的显著改善，并直接转化为了更优质的患者体验。

突发故障时，AI 云的选择至关重要

Datta 坦言在如此规模下运营的现实情况：GPU 基础设施一直在演进，驱动更新和节点中断是常态，恢复速度才是关键。

“我深切关注的是，当出现故障时，我们是否有可靠的合作伙伴与我们共同承担和扩展？DigitalOcean 团队在这方面表现得非常出色，”Datta 说道。

DigitalOcean 为驱动更新和节点维护提供手把手式的技术支持，并在硬件发生故障时提供快速更换。当 Hippocratic AI 对推理堆栈、硬件升级或新节点可用时间表有具体疑问时，DigitalOcean 的工程团队会直接与他们对接解决。

“哪怕是小事，比如对我们节点的支持，每当我们遇到关于推理堆栈和硬件的非常具体的问题时，DigitalOcean 在这方面都给予了极大的帮助，”Datta 表示。

DigitalOcean 首席执行官 Paddy Srinivasan 及公司领导团队也直接参与了与 Hippocratic AI 针对基础设施决策和扩展需求的深度沟通。

1.8 亿次互动，且在持续增长

Hippocratic AI 目前在其临床工作流中已处理了超过 1.8 亿次患者互动。在这一数字背后，是患者得到了关于其药物的及时提醒，或是术后接到了跟进电话，在症状恶化为急诊之前被及时捕获。Hippocratic AI 的智能体已经帮助患有慢性病的患者发现了关键的医疗服务缺口，团队内部强调，这种情况每天都会发生数百次。保障这些对话不间断运行的基础设施，与它们所带来的临床成效是不可分割的。

“Hippocratic AI 在医疗 AI 领域所构建的成果令人瞩目——在人们生命中某些最复杂、最敏感的时刻，完成了数亿次真实的患者互动。在 99.9% 的临床安全级别下交付这一成果，这就是关乎生死的生产级 AI 该有的样子。这就是专属推理堆栈所能带来的成效，也是我们的 AI 原生云让其成为可能的原因。Hippocratic AI 的成果就是最好的证明，”Srinivasan 表示。

该公司正在继续扩大其在 DigitalOcean 上的版图，定期增加节点，并计划在平台上最新硬件和 GPU 发布时第一时间采用。

这项工作的意义已经超越了基础设施的指标。Hippocratic AI 既是一个技术产品，同时也是一家医疗公司。其工程师在顶级 AI 研究期刊上发表论文，其临床团队对照真实的患者安全标准评估每一个模型的输出。其结果是一个基础设施与临床验证服务于单一目标的系统：确保患者安全。

最初为了解决医疗系统无暇顾及的电话人手问题而诞生的项目，如今已演变为更宏大的事业：一个在不断壮大的雄心壮志基础设施之上构建的、面向全民规模提供临床护理的基石。

“我对生成式 AI 在各处的应用都非常看好，医疗领域更是充满了巨大机遇。我认为现在是投入构建的绝佳时机，”Datta 说道。