当今数据中心的路由通常由一种名为"胖树"的数据结构主导,其形态类似企业组织架构图:每一层的节点与下一层的多个节点相连。其中,底层节点代表相互通信的路由器,而上层节点则是用于简化路由流程的辅助路由器。底层路由器发送的数据包会沿树状结构向上传递,直至到达目标路由器所在的分支,再向下转发。
这种设计易于实现,但效率低下:额外的路由器层带来了不必要的开销,树顶的路由器也容易发生拥塞。此外,胖树结构较为脆弱,单个路由器的故障就可能导致树中大片区域断联。
从理论上看,最优的替代方案是"平面"网络,即路由器之间直接互联。理想情况下,路由器应以随机方式连接,以最大化网络中路径的多样性。然而,这在实践中并不可行——在随机网络中动态计算路径需要大量算力,随机布线也会导致数据中心内线路纵横交错、难以管理。
在我们近期发布于arXiv的一篇论文中,我们描述了首个可规模化落地的平面网络数据中心。我们提出了一种"准随机"网络拓扑,它保留了随机连接的诸多优势;同时引入了一种我们称之为ShuffleBox的无源光学器件,使平面网络的布线具备了工程可行性。这套网络设计方案被我们命名为RNG(弹性网络图),目前已在AWS数据中心中投入使用,并已成为全球大多数新建数据中心的默认选择。与传统方案相比,RNG减少了69%的路由器用量,吞吐量最高提升33%,预计可降低40%的网络设备电力消耗。
数学理论的支撑
1990年代初,数学家们已证明,最优路由网络具有随机拓扑结构——每个路由器仅与少数几个其他路由器随机相连。这一结论看似违反直觉,但整个网络因此在任意一对路由器之间都拥有大量不同路径。随机网络还展现出出色的弹性:没有任何单一路由器比其他路由器更为关键。1%的路由器发生故障,网络容量仅下降约1%,性能退化是线性且可预测的,而非灾难性的集中式崩溃。
网络研究人员也通过仿真验证了上述结论,证明随机平面拓扑在性能上优于对应的胖树结构。
然而,这些理论成果始终难以在现实中落地。任何网络设计都需要配套"路由协议"来决定数据包的传输路径。在随机网络中,计算并实现合理的路由路径集合需要大量硬件资源,远超普通商用路由器的能力上限;而采用专用硬件来处理路由又会导致成本飙升。更大的难题在于,在数据中心内实现路由器的随机布线在工程上几乎无法实现。
我们的解决方案是构建一种"准随机"网络拓扑,在随机与确定性组件之间找到恰当的平衡点。
Spraypoint路由算法
在胖树结构中,层级本身就能指引数据包的走向,且所生成的路径保证是最短路径。而在准随机图中,没有明显的结构可供利用。传统平面拓扑中的多路径路由方案通常需要比商用硬件多20至80倍的内存资源。
我们的核心洞察在于:可以利用拓扑结构中的随机特性,以轻量级的方式开辟丰富的路径选项。
我们的路由算法Spraypoint包含两个组件。源路由器将流量"喷洒"至其所有邻居节点;每个目标路由器设有若干专属"路径节点",负责将流量汇入目标。基本机制如下:源端发出的每个数据包首先随机转发至一个邻居节点,随后由经典最短路径算法将其路由至某个路径节点,再由该节点转发至最终目标。喷洒机制使流量能够经由多种不同路径抵达目标,而路径节点则防止流量在目标附近发生拥塞。在具体实现中,我们在每个目标周围构建若干"环",流量沿环逐步向内收敛。
通过向邻居节点喷洒流量,Spraypoint所提供的路由器间独立路径数量几乎是标准最短路径路由技术的两倍,从而显著提升了绕过拥塞链路或故障路由器的概率。
ShuffleBox:让平面网络布线成为可能
随机图需要将任意两台路由器相连,而这些路由器可能分布在不同机房,相距数百米。这正是该拓扑的优势所在——它实现了路由器之间的快速通信;但这同时也是其劣势,因为如此复杂的布线结构极难实现。
这正是我们准随机方案发挥作用之处。我们并非让所有连接都随机分布,而是将网络拓扑中的特定部分固定下来。我们的核心创新是一种名为ShuffleBox的无源光学器件:一侧连接路由器端口,另一侧与其他ShuffleBox相连,内部线路按照特定规律排列,使ShuffleBox之间的随机连接在宏观上形成准随机拓扑。
当一个新机架接入时,技术人员只需将其路由器插入本地ShuffleBox的可用端口即可,无需在其他地方重新布线。整个物理布线的复杂度、线缆数量和安装流程均与胖树方案相当,而逻辑拓扑实际上已是准随机结构。
数学模型与大规模验证
引入任何新型网络拓扑之前,运营商都需要确信其能满足容量和性能要求。胖树拓扑拥有简单明了的预测模型,可量化性能和容量约束。
准随机图此前从未有过类似的工具。为此,我们针对路径长度、路由数量、特定链路的流量分布等网络统计指标,建立了全新的数学模型,提供精确的公式供网络运营商选取设计参数。我们基于530处理器年的仿真对这些模型进行了大规模验证——相当于单颗CPU连续运行半个千年,这些计算均在Amazon EC2上完成。
运营商现在可以根据服务器数量和目标性能指标,计算出成本最低的合规拓扑方案,并对其可靠性充满信心。
生产环境落地与全球推广
截至2026年4月,准随机布线已成为全球大多数AWS新建数据中心的默认架构。路由器数量减少69%,直接转化为每个站点在电力、散热和运维开销方面的大幅节省。对于用户而言,这意味着每一次API调用、数据库查询和机器学习训练任务背后,都有着更具弹性的基础设施支撑——而这一切无需更改任何一行代码。
Q&A
Q1:AWS的RNG网络设计和传统胖树架构相比,有哪些具体优势?
A:RNG(弹性网络图)相比传统胖树架构有三大核心优势:一是路由器数量减少69%,显著降低了硬件成本、散热需求和运维开销;二是网络吞吐量最高提升33%,得益于Spraypoint算法提供了几乎两倍于标准最短路径路由的独立路径数;三是网络设备电力消耗预计降低40%。此外,RNG的弹性更强,单个路由器故障仅导致线性、可预测的容量下降,不会像胖树那样造成大面积断联。
Q2:ShuffleBox是什么?它是如何解决平面网络布线难题的?
A:ShuffleBox是AWS团队开发的一种无源光学器件,是实现平面网络工程落地的关键创新。它一侧连接本地机架的路由器端口,另一侧与其他ShuffleBox互联,内部线路按照特定规律排列。这种设计使得ShuffleBox之间的连接在逻辑上呈现出准随机拓扑,同时将物理布线的复杂度控制在与胖树方案相当的水平。新机架接入时,技术人员只需将路由器插入本地ShuffleBox的可用端口,无需在其他地方重新布线,大幅简化了施工流程。
Q3:Spraypoint路由算法是如何工作的?