• Resources
  • Blogs
  • AI 网络技术解读:开放系统、认证系统与超以太网的崛起

AI 网络技术解读:开放系统、认证系统与超以太网的崛起

Despoina Triantafyllidou
19 11 月 2025
Artificial Intelligence
Data Center
AI 网络技术解读:开放系统、认证系统与超以太网的崛起

开放系统与认证系统

在 AI 网络与集群互连的语境中,“开放系统”与“认证系统”之间的区别,是构建、扩展和支持 AI 基础设施的根本性分野。

开放系统采用标准化、可互操作的技术,使来自多个供应商的组件(服务器、NIC、交换机、软件栈)能够通过开放协议和接口共存并通信。

认证系统则是封闭的、由供应商验证的整体栈,每个软硬件组件都经过统一测试、验证,并由单一供应商或联盟作为一个集成系统提供支持。

 

什么是 AI 网络中的开放系统

在开放式 AI 网络系统中,基础设施的每一层(例如硬件或网络栈)都以互操作性为设计目标。系统基于开放标准构建,如 Ethernet、RoCEv2,以及日益成熟的 Ultra Ethernet 规范,使不同供应商的组件能够在无专有限制的情况下共存与通信。

用户团队可以修改固件、驱动等系统组件,以针对自身用例优化端到端行为。同时,这些团队也必须负责系统的测试、调优和性能验证。因此,开放系统更有利于快速创新与自由度,尤其是避免被单一供应商的路线图所锁定。

开放系统的优势显而易见:互操作性与可定制性。工程与研究团队可以根据自身需求灵活调整系统。生态系统由社区共同推动,行业共享进步。

但这种开放性也带来权衡:
没有端到端性能保证,也没有单一供应商对整个栈的兼容性负责。验证、集成与持续调优的责任完全落在集成方或运营方身上。要确保多供应商环境在大规模下按预期运行,需要深厚的技术能力。一旦出现问题,排障依赖工程投入与跨供应商协作,而非单一支持渠道。

 

认证系统的特性

相比之下,认证系统提供受控、供应商验证的环境。硬件与软件栈的每一层都在定义的工作负载下经过测试与验证,确保作为一个整体协同工作。

对运营者而言,这意味着可预测性:系统在指定参数范围内具备保证的性能,并由 SLA 与供应商支持背书。部署更顺畅,维护周期更稳定,排障更快速,因为整个栈的责任归属于单一供应商。

代价是灵活性降低。认证系统通常是封闭且专有的生态。其演进取决于供应商的节奏,任何超出认证范围的自定义都可能导致认证失效或失去支持。创新在此模式下更多由供应商路线图驱动,而非用户需求。

当可靠性、确定性与单一责任主体比架构自由更重要时,认证系统是理想选择。但对于希望快速试验、优化或整合多源快速演进技术的组织而言,它们并不适合。尤其对追求极致优化与快速迭代的超大规模运营者来说,吸引力更低。

 

AI 网络中的开放系统 vs 认证系统

开放系统提供灵活性与创新速度,但需要专业能力与自我承担。
认证系统提供可预测性与部署安心,但限制开放性与进一步优化。

以下是 AI 集群中两类系统的对比:

 

开放系统

优点:

  • 可定制,可针对用例优化
  • 避免供应商锁定(路线图与价格)
  • 促进创新,推动竞争与改进
  • 成本更低,更快采用新标准

缺点:

  • 大规模验证更困难(复杂调试、版本不一致)
  • 需要深厚的内部专业能力
  • 性能调优与确定性由用户负责

 

认证系统

优点:

  • 性能可预测且有保证
  • 部署与维护更简单
  • 由供应商整体支持

缺点:

  • 供应商锁定
  • 用例定制/优化空间有限
  • 更新与创新依赖供应商路线图

 

为什么融合“开放 + 认证”的系统将成为 AI 基础设施的未来

随着 AI 集群规模远超传统数据中心的设计范围,互连已成为决定性能、可靠性与创新速度的关键。开放系统与认证系统的争论仍在塑造集群的构建方式,以及谁将掌控其未来。

两者代表不同的控制哲学:
开放系统强调适应性与创新速度;
认证系统强调保障与一致性。

选择更多取决于组织优先级:是追求自主掌控,还是追求稳定运行。

但这两种哲学并非注定对立。随着 Ethernet 演进以满足 AI 规模,未来的赢家将是结合开放创新自由度与认证系统可靠性保证的架构。AI 基础设施正朝此方向发展。Ultra Ethernet 等新兴标准正在弥合两者差距,旨在让开放系统具备认证系统般的可预测性与保障。

与此同时,供应商开始开放原本封闭的栈,在认证框架内允许受控互操作。超大规模运营者则推动开放生态,同时要求数据中心级性能与可靠性。

未来属于“像认证系统一样运行的开放系统”!
既灵活、协作、基于标准,又能在大规模下保持一致性与可信度。

这正是 Calnex 解决方案的优势所在!