
Hippocratic AI 致力于构建生成式 AI 智能体,它们可以致电患者、指导术后康复计划、跟进慢性病管理,并协助弥补可能被疏忽的医疗服务缺口。该公司的 Polaris 星座架构(Polaris constellation architecture)采用一个核心主模型来主导每次患者对话,同时有 20 多个专业支持模型并行运行,以此减少幻觉、提供临床依据,并对主模型的输出进行安全性交叉检查。截至目前,Hippocratic AI 在慢性病管理、服药依从性、医疗缺口填补和临床排程等方面已实现超过 1.8 亿次患者互动,其运行规模已达到了让“基础设施性能”与“患者安全”两者界限相融合的境地。通过与 DigitalOcean 在 NVIDIA GPU 架构上的紧密合作,Hippocratic AI 在超过 1000 万次真实患者通话中达到了 99.9% 的临床安全评分,并在实时临床对话所需的低延迟下,支持了 2 倍的生产环境推理吞吐量。
在通话中途断线的服药依从性提醒电话,绝不仅仅是一个用户体验缺陷,而是一次医疗中断。由 DigitalOcean 设计、运行在 NVIDIA Hopper 和 Blackwell Ultra 硬件上,并根据 Hippocratic AI 临床需求量身定制的生产堆栈,已经成功交出了答卷。
以下是 Hippocratic AI 在 DigitalOcean 的 AI 原生云(AI-Native Cloud)上取得的成果:
-
2 倍生产环境推理吞吐量:通过使用 NVIDIA H200 和 B300 GPU 的平台级推理优化得以实现。
-
P99 端到端延迟降低 40%:通过将 DigitalOcean 的基础设施与 Hippocratic AI 的模型级优化相结合得以实现。
-
Prefill(预填充)延迟降低至原有一半:在长上下文临床会话中,相比上一代无状态服务配置,延迟缩减了 2 倍。
-
单节点吞吐量提升约 30%:由硬件感知调度、模型量化(如 NVIDIA B300 GPU 节点上的 NVFP4 方法)以及定制内核驱动。
为医疗 AI 选择云合作伙伴
Hippocratic AI 的 Polaris 系统编排了一个由 22 个专用大语言模型组成的架构,参数总量达 4.2 万亿。这些模型与患者进行实时的语音和文本交互,每次对话都要求亚秒级的响应速度,且对会话中途故障的容忍度为零。该系统已在超过 1000 万次真实患者通话中保持了 99.9% 的临床安全评分,平均患者满意度高达 8.95 分(满分 10 分),并获得了 7,500 多名临床医护人员的验证。
为了在生产规模下保持 400 毫秒的中位数首字延迟(time-to-first-token),Hippocratic AI 必须在最新可用的 GPU 硬件上运行。该公司在内部运行着多云基础设施,不同的模型架构需要不同类型的 GPU。
“NVIDIA 拥有令人惊叹的硬件,比如 Hopper 和 Blackwell GPU,而 DigitalOcean 堪称我们以最快速度获取这些硬件的核心合作伙伴之一,”Hippocratic AI 联合创始人 Debajyoti Datta 表示。
Hippocratic AI 此前一直在寻找能够支持其规模化发展的云合作伙伴,而事实证明,DigitalOcean 是获取最新 NVIDIA 硬件的最快路径之一。DigitalOcean 不仅提供了对 NVIDIA HGX™ B300 GPU 节点的早期访问权限和对 NVIDIA H200 节点的即时访问权限,还在针对持续推理负载进行优化的平台上提供了手把手的工程支持。Hippocratic AI 的团队通过 DigitalOcean 将生产负载顺利迁移到了 NVIDIA GPU 上,双方的合作自此不断加深。
“我们的合作基于一个共识:我们必须处于最新的硬件之上,并拥有最出色的推理堆栈,”Datta 说道。
打造保障患者安全的推理堆栈
在过去的一年里,DigitalOcean 与 Hippocratic AI 及 NVIDIA 紧密合作,对推理路径的每一层进行了优化。结合 Hippocratic AI 的真实生产需求,凭借对 NVIDIA HGX™ B300 GPU 的早期访问权以及对 Hopper 和 Blackwell 架构的深度技术支持,DigitalOcean 对其 AI 原生云进行了工程改造以满足这一严苛标准。其成果包括:硬件感知调度、针对持续高并发负载优化的推理运行时,以及对 FP8 和 NVFP4 量化、定制 MoE(混合专家模型)内核、KV 缓存优化和缓存感知路由架构的平台级支持。这种路由架构最大程度地提高了长周期临床会话中的 KV 缓存命中率和上下文复用率。
在长上下文临床会话中,这些联合优化的成果带来了约 30% 的单节点吞吐量提升,且与上一代无状态服务配置相比,预填充延迟降低了一半。这些进展与 Hippocratic AI 在 2026 年 4 月的 DigitalOcean Deploy 大会上宣布的生产环境改进相得益彰,当时该公司报告称其生产推理吞吐量提高了 2 倍,端到端 P99 延迟降低了 40%。
对于 Hippocratic AI 而言,这些绝非抽象的基准测试数据。达到延迟目标意味着系统可以在通话中途生成思考 Token(thinking tokens),从而使更新后的软硬件堆栈带来了 4 倍的吞吐量提升。这意味着在保持相同质量水平的前提下,能够支持更多并发的患者会话,从而实现从试点向全民规模的跨越。
“安全关键型 AI 负载的需求与消费级应用有着本质的不同。DigitalOcean 和 Hippocratic AI 展示了基于 NVIDIA H200 和 B300 硬件的紧密集成基础设施(打破软件和硬件的物理边界,云服务器的每一条连线、每一个调度算法,都是为了跑这个 AI 模型而优化和定制的)与推理优化,如何在规模化运行时同时兼顾高性能与高可靠性,”NVIDIA 加速计算产品总监 Dave Salvator 解释道。
得益于 DigitalOcean 与 NVIDIA 的合作,Hippocratic AI 也是首批在 NVIDIA HGX™ B300 硬件上运行生产负载的客户之一。对于每一个 Token 都会影响临床体验的业务负载,NVIDIA Blackwell Ultra 实现了单节点容量的阶跃式提升。它允许 Hippocratic AI 在相同的延迟目标下支持更多的并发会话,并在漫长的临床对话中扩展上下文窗口。NVIDIA B300 GPU 节点还支持更先进的量化方法(如 NVFP4),在吞吐量和延迟方面带来了可衡量的显著改善,并直接转化为了更优质的患者体验。
突发故障时,AI 云的选择至关重要
Datta 坦言在如此规模下运营的现实情况:GPU 基础设施一直在演进,驱动更新和节点中断是常态,恢复速度才是关键。
“我深切关注的是,当出现故障时,我们是否有可靠的合作伙伴与我们共同承担和扩展?DigitalOcean 团队在这方面表现得非常出色,”Datta 说道。
DigitalOcean 为驱动更新和节点维护提供手把手式的技术支持,并在硬件发生故障时提供快速更换。当 Hippocratic AI 对推理堆栈、硬件升级或新节点可用时间表有具体疑问时,DigitalOcean 的工程团队会直接与他们对接解决。
“哪怕是小事,比如对我们节点的支持,每当我们遇到关于推理堆栈和硬件的非常具体的问题时,DigitalOcean 在这方面都给予了极大的帮助,”Datta 表示。
DigitalOcean 首席执行官 Paddy Srinivasan 及公司领导团队也直接参与了与 Hippocratic AI 针对基础设施决策和扩展需求的深度沟通。
1.8 亿次互动,且在持续增长
Hippocratic AI 目前在其临床工作流中已处理了超过 1.8 亿次患者互动。在这一数字背后,是患者得到了关于其药物的及时提醒,或是术后接到了跟进电话,在症状恶化为急诊之前被及时捕获。Hippocratic AI 的智能体已经帮助患有慢性病的患者发现了关键的医疗服务缺口,团队内部强调,这种情况每天都会发生数百次。保障这些对话不间断运行的基础设施,与它们所带来的临床成效是不可分割的。
“Hippocratic AI 在医疗 AI 领域所构建的成果令人瞩目——在人们生命中某些最复杂、最敏感的时刻,完成了数亿次真实的患者互动。在 99.9% 的临床安全级别下交付这一成果,这就是关乎生死的生产级 AI 该有的样子。这就是专属推理堆栈所能带来的成效,也是我们的 AI 原生云让其成为可能的原因。Hippocratic AI 的成果就是最好的证明,”Srinivasan 表示。
该公司正在继续扩大其在 DigitalOcean 上的版图,定期增加节点,并计划在平台上最新硬件和 GPU 发布时第一时间采用。
这项工作的意义已经超越了基础设施的指标。Hippocratic AI 既是一个技术产品,同时也是一家医疗公司。其工程师在顶级 AI 研究期刊上发表论文,其临床团队对照真实的患者安全标准评估每一个模型的输出。其结果是一个基础设施与临床验证服务于单一目标的系统:确保患者安全。
最初为了解决医疗系统无暇顾及的电话人手问题而诞生的项目,如今已演变为更宏大的事业:一个在不断壮大的雄心壮志基础设施之上构建的、面向全民规模提供临床护理的基石。
“我对生成式 AI 在各处的应用都非常看好,医疗领域更是充满了巨大机遇。我认为现在是投入构建的绝佳时机,”Datta 说道。



