卓普云

DigitalOcean AI 智能体评估功能全新升级:更快速,更深入

DigitalOcean Gradient™ AI平台智能体评估功能全新升级,通过指标分组、示例数据集、清晰报错和结果追溯,助你更快速、有效地评测与优化AI智能体表现。

2025年12月9日
DigitalOcean AI 智能体评估功能全新升级:更快速,更深入

评估 AI 智能体并非易事,尤其当现有工具无法契合你的思维和工作方式时。为此,我们很高兴宣布,DigitalOcean Gradient™ AI 平台中的智能体评估功能现已全面升级。新版本将帮助你更快速、更轻松地评估 AI 智能体、理解结果并定位问题。

智能体评估功能有哪些更新?

原有的评估功能虽然强大,但存在一些影响开发者使用体验的痛点。本次升级正是为了彻底解决这些问题:

  • 按目标归类的评估指标:评估指标现在按目标导向的逻辑分组呈现,例如“安全与防护”“准确性”“检索增强生成性能”等类别。“安全与防护”组已预设勾选,帮助开发者快速、安心地开始评估。
  • 示例数据集:新增常见评估场景的示例数据集,助你高效创建自定义数据集。
  • 明确且持续的报错提示:上传错误提示现在更清晰、持续显示且具体明确,例如“验证错误:缺少‘query’列”。开发者能轻松理解并修复问题,减少测试环节的阻碍。
  • 可解读的结果与调用链路追溯:评估结果按设置时采用的指标组别分类展示,每个指标及其评分方式均配有提示说明。通过与可观测工具的深度集成,开发者可直接从低分项跳转至完整调用链路,快速调试并优化模型。

为何需要使用评估功能?

评估功能帮助你系统化测试和改进 AI 智能体,更轻松地发现问题和优化性能。对于入门者,预设的“安全与防护”指标和示例数据集能快速检测常见问题(如不安全或有偏差的输出),让你对智能体的表现更有信心。

对于需要规模化部署的团队,自定义测试用例、针对“检索增强生成性能”等专项指标组,以及上传自有数据集的功能,将为你提供更深度的智能体表现洞察。结合调用链路追溯功能,你可深入分析低分项目,精准调试和改进智能体。评估功能能助你将结果快速转化为具体优化方案,帮助各阶段的开发者构建更安全、更可靠的 AI 智能体。

如何开始使用智能体评估?

准备好测试你的智能体了吗?在 DigitalOcean Gradient™ AI 平台中开始评估非常简单:

  1. 在云控制台中打开你的智能体评估页面。
  2. 创建新测试用例并为其命名。建议使用独特且描述清晰的名称,体现测试目标或场景,便于后续查找。
  3. 选择要评估的指标,重点关注对你的智能体最为关键的维度。
  4. 选择数据集。如需创建自定义数据集,可参考文档中的示例快速生成 CSV 文件。
  5. 运行评估并查看结果。通过调用链路追溯功能深入分析低分项,高效调试智能体。

现在就开始评估你的智能体吧!精准把控 AI 性能,及时发现潜在问题,优化智能体行为,打造可靠且可快速投入生产环境的系统。

首页/产品更新/DigitalOcean AI 智能体评估功能全新升级:更快速,更深入

相关文章

DigitalOcean容器注册表推出多注册表支持功能
产品更新

DigitalOcean容器注册表推出多注册表支持功能

DigitalOcean容器注册表升级,专业版客户现可在一个团队下免费创建最多10个独立注册表,极大提升了部署的灵活性与隔离性。

2026年1月12日
加速 JavaScript 开发:DigitalOcean 应用托管现已原生支持 Bun
产品更新

加速 JavaScript 开发:DigitalOcean 应用托管现已原生支持 Bun

App Platform 现已原生支持 Bun 运行时,无需配置即可享受极速构建与部署,为现代 JavaScript 应用提供全栈加速。

2025年12月29日
代码优先!DigitalOcean Gradient AI 知识库迎来重大升级
产品更新

代码优先!DigitalOcean Gradient AI 知识库迎来重大升级

DigitalOcean近期升级了Gradient AI知识库功能,推出全新“代码优先”体验。该功能允许开发者完全通过代码创建、管理和查询知识库,以简化构建RAG系统的流程。目前此增强功能已进入公共预览阶段。

2025年12月23日