AI数据中心构建器
  • 无需大型GPU集群即可模拟AI工作负载,通过利用高密度流量负载设备或软件端点,有效降低测试和验证成本。
  • 访问KAI工作负载资料库,这是一套与领先AI运营商和学术机构合作构建的完整AI工作负载执行追踪数据集。
  • 利用高密度AI主机仿真,支持800GE/400GE功能,准确反映AI集群行为。
  • 通过KAI Collective Benchmarks应用程序优化基准测试,验证AI网络架构性能,从而提升使用效率。
  • 自动化AI网络架构测试,以评估网络对任务完成时间、性能隔离、负载均衡和拥堵控制的影响,从而优化AI训练性能。

产品概述

       Keysight AI数据中心构建器是是德科技(Keysight)推出的先进软件套件,专注于通过真实AI工作负载模拟,验证和优化AI基础设施的设计性能。其核心目标是解决大规模AI数据中心面临的系统级验证挑战,降低真实部署前的技术风险与经济成本。


主要特性

解决 AI 网络挑战

AI/ML 行业的关键行业趋势和挑战包括:

  • 预计到2026年,AI集群的节点数量将突破10万个。
  • 有多达50%的时间闲置,等待数据交换。在数据交换等待期间,空闲时间可高达50%。
  • AI 网络创新需要新的测量和基准工具。
  • 是德科技提供了一个具有无损结构验证记录的800GE/400GE测试解决方案。与基于GPU的系统基准测试相比,它部署更快速,提供更深入的洞察,同时实现可验证的AI流量仿真准确性。

加速 AI 网络设计

定义AI/ML基础设施的未来。解锁可能,塑造未来格局。

基准测试AI集合通信的任务完成时间
驾驭AI工作负载的复杂性。

实现网络性能测量的精确性
根据更深入的AI通信洞察做出设计决策。

灵活的假设场景
通过测试AI流量模式优化结构配置,从而提升AI集体性能。

高性价比的高密度AI网络测试平台
使用AresONE-M 800GE和AresONE-S 400GE的AI流量仿真扩展实验规模。


将真实的 AI 工作负载带入实验室

KAI 工作负载仿真使AI基础设施团队无需部署大型GPU集群即可重现真实的AI训练行为,在保持真实性的同时降低成本。

工作负载仿真的主要优势

  • 使用400GE/800G AresONE流量发生或商用现成服务器 (COTS) 仿真AI工作负载。
  • 在真实环境下验证并行策略、模型分区和数据交换模式。
  • 在全面部署前,确保基础设施与AI工作负载需求保持一致。
  • 降低对高成本AI集群在基准测试与性能测试上的依赖。



重新定义 AI 基础设施的基准测试方式

Keysight通过精确和快速的方式帮助改变AI基础设施基准测试:

  • 通过仿真大规模AI工作负载,优化AI/ML系统设计。
  • 深入洞察集体通信性能,助力系统优化与设计决策。
  • 通过以应用程序交付的预打包方法,简化基准测试与验证流程。
  • 使用高密度AresONE流量负载设备,通过数百个400GE或800GE端口,模拟基于融合以太网v2(RoCEv2)的远程直接内存访问(RDMA)端点。

通过集体基准测试简化 AI 基础设施验证

       Keysight通过提供精确、可扩展性,以及有助于优化设计与部署的深度洞察,加速AI基础架构验证。KAI数据中心构建器结合KAI Collective Benchmarks 应用程序、测试工具包和高保真测试仪器,简化性能评估流程,使AI运维人员能够优化基础设施设计与网络性能。

主要功能包括:

  • 通过测量任务完成时间、算法和总线带宽,以及与理论最大性能的偏差,评估集合通信效率。
  • 使用AresONE流量负载设备模拟RoCEv2端点,通过深入分析功能评估队列对(AI 数据流)的性能表现。
  • 通过将AresONE硬件测试结果与真实AI系统的指标进行对比,来验证RoCEv2仿真的真实性。
  • 通过集成AI集合基准测试,KAI数据中心构建器帮助AI运营商和基础架构供应商深入洞察数据传输效率、网络拥塞情况及整体系统性能。

RoCEv2 端点仿真和状态验证

超越仿真,精准定义RoCEv2验证新标准

IxNetwork 和 AresONE-S 全面支持 RoCEv2 协议
       IxNetwork/AresONE-S支持RoCEv2传输协议,并具备数据中心量化拥塞通知(DCQCN)拥塞控制与优先级流控(PFC)功能。它为验证AI集群中的数据平面流量管理提供了可扩展且高性价比的解决方案,优化网络结构性能。

速度与规模
       AresONE-S每台设备提供高达16个400GE端口,并可组合为多设备配置,在单一集群中实现超过256个端口的扩展能力,每个端口可模拟一个RoCEv2端点,并支持数千个队列对(Queue Pair),实现线速流量传输。 这种规模对于重现真实AI集群的网络拓扑至关重要。

流量灵活性
       为了贴近AI工作负载模式的真实性,并在较小规模环境中重现潜在问题,AresONE提供涵盖多种流量模式的RoCEv2功能,包括汇聚 (in-cast)、部分网状(partial mesh)以及全域 all-to-all 集体通信。
在传输层,它支持可配置数据大小、突发速率和间隔的RDMA动作序列,并结合了DCQCN和PFC的速率控制机制。

队列对 (Queue Pair ) 级别的 DCQCN 流控机制
       每个队列对的DCQCN支持精确的网络拥塞控制,结合显式拥塞通知(ECN)与速率控制等功能,优化数据流与网络结构的响应能力。