电子工程专辑
UBM China

包缓冲存储器带宽将成为网络处理器的性能瓶颈

上网日期: 2003年07月26日 ?? 作者: Michael Ching ?? 我来评论 字号:放大 | 缩小 分享到:sina weibo tencent weibo tencent weibo


打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

1.扫描左侧二维码
2.点击右上角的分享按钮
3.选择分享给朋友

关键字:NPU? DDR? DLDRAM? FCRAM?

目前,不断上升的网络线速率(最高已达10Gbps)正在逼近数据通信线卡中包缓冲存储器的性能极限。缓冲存储器的性能主要取决于存储器芯片的I/O信令接口、内核架构、寻址方式和指令协议。其它影响网络处理器性能的因素依赖于网络处理器(NPU)的设计,特别是NPU利用不同存储器架构和性能的能力。

为了处理10Gbps线速率,通用NPU所需具备的性能已经超出大部分传统DRAM的I/O带宽容量。为此,存储器制造商已经开发了数种高性能的新类别DRAM以及专用芯片。

在这种I/O和数据密集型的网络环境中,随着网络线速率迈向更高的水平,下一代存储器芯片将面临需要更高性能的压力。解决这一问题的一个方法是采用一种新颖的信令技术,它可以将I/O数据率提升到3.2GHz以上。

网络线卡设计师正在努力创建能迅速上市的低成本产品。用于网络处理的定制ASIC虽然在性能上是可调整的,但它的开发代价很昂贵,而且需要大量的设计工作。为了降低价格,NPU供应商正在实施灵活的设计,以覆盖广阔的应用范围,从而取得规模经济效应。与此同时,NPU正在接近定制ASIC处理器的性能水平,以至于有可能排除用FPGA来创建处理器的必要性。

为了辅助这些NPU, 市场上也供应了各种具有不同架构的存储器芯片。可以毫不夸张地说,设计小组对存储器类型的选择是取得高性能和市场成功的关键因素。可供选择的各种方案包括专用存储器,如快速周期随机存储器(FCRAM)和时延减少型DRAM(RLDRAM)和通用存储器,它们一般使用双倍数据率(DDR)或Rambus信令级(RSL)等I/O接口以加快传统DRAM内核的速度。这些不同的存储方法各具优劣,但都将目前的性能水平锁定在处理OC-192(10Gbps)数据包所需的4GBps带宽上。

之所以需要一个大容量且非常快速的包缓存器是因为对数据包进行的几项存储器操作都必须在线速率下完成,与此同时,为了维持数据的完整性,还不能丢失数据包。典型的存储器操作包括存储、优先排序(“分类”)和转发数据包;维持服务质量(QoS)并执行错误检查和纠正功能;以及一些增值服务,如面向虚拟专用网(VPN)的数据加密。

存储器性能面临的另一项挑战是数据流的随机特性和可变的数据包大小(一般从40到1,500个字节不等)。特别是,数据(尤其是小数据包)的随机抵达和无规律传输往往会降低存储器的持续性能。而提供持续不变的高性能正是包缓存器必须具备的特征。

与此同时,线卡设计师必须在更严格的空间和功耗约束条件下完成设计工作。给设计师在空间和功耗方面带来挑战的因素包括:在大型多架网络路由器柜上需要部署多达6?个线卡;每块卡上的接线和芯片数量越来越多;下一代卡的线速率是目前的4倍等。

例如,在用于OC-768或多重OC-192线速率的下一代NPU中,存储器子系统将需要多个并行的存储器芯片,从而引发在ASIC引脚数目方面的巨大挑战,即便采用当今最先进的倒装球栅阵列(BGA)封装也是如此。NPU设计师还必须小心控制包缓存器的功耗,通常,线卡上所有存储器元件(包括控制-存储SRAM)的功耗被限制在10W的最大值以下。图:各种适用于网络处理器的高速存储器一览表。

通过设计来提高速度

在选择包缓存器时,性能仍然是最重要的考虑因素之一。与网络处理器搭配的存储器系统必须能提供足够的带宽,以维持网络的线速率及网络应用的服务水平。

在选择包缓存器时关键的考虑因素是I/O信令和频率,这两个选项在很大程度上共同决定了存储器元件数量、NPU引脚数量以及总功耗。在最常用的信令级中,主流的线脚系列终端逻辑(SSTL)信令最高能达到400MTps(每秒1兆次转发),高速收发器逻辑(HSTL)能达到600 MTps;而RSL能达到1200MTps。这些最大的传输率乘以存储器的总线带宽就等于存储器子系统的峰值带宽。

因为使用SSTL和HSTL I/O信令接口,一些高速存储器(如FCRAM和RLDRAM)只有当它们与NPU点对点连接时才能提供最佳的性能。(与其它接口相比,SSTL信令还需要消耗更大的功率。)与此相反,RSL信令允许多个存储器芯片连接在同一条总线上(称为多点连接),从而可以通过传统的方式来增加线卡的总存储容量。对多点总线的支持还给设计人员带来灵活性,使他们在面对各种不同的应用和市场时只需专注于一种基础的线卡设计。

网络对稳定流量的追求意味着包缓存器必须始终维持其高性能。尽管I/O信令决定了存储器与NPU之间的数据传输率,但性能效率(即芯片维持峰值带宽的程度)取决于存储器芯片的内核架构、寻址方式和指令协议。

例如,一个按OC-192线速率传输的40字节数据包要求存储器芯片的内核架构在32纳秒或更短的时间内存取随机数据。假定标准DRAM的行存取时间(tRC)为60纳秒,那么实现上述任务的一种方法是采用具有专用内核的存储器,例如FCRAM或RLDRAM,它们一般具有25纳秒的tRC。另一种方法是在大量非冲突DRAM库(bank)(最好是在同一芯片中的库)之间进行交错或流水线处理。

此外,对于处理两个OC-192数据流的线卡,所要求的tRC缩短为16纳秒。而OC-768对tRC的要求将是8纳秒。这样的性能甚至超出了当前专用DRAM内核的能力范围,而容量需求和功耗约束使得SRAM无法成为可选的方案。

短数据存取

除了内核架构外,性能效率还取决于存储器的寻址方式和指令协议。就处理小数据包而言,设计师应该寻找那些能存取短数据的存储器。DDR和FCRAM芯片所采用的传统多行/多列(RAS/CAS)寻址方式最小能处理32字节长度的数据包。因此,即使只需存取40个字节,也必须传输6?个字节,其效率是62.5%。其它处理方法包括RLDRAM的单周期类SRAM协议以及RDRAM的高频率包协议。这两种设计都能处理最小为16字节的数据,因此存取40个字节只需传输48个字节,从而获得83.3%的效率。

除了性能之外,线卡设计人员还应该考虑将多个存储器置于一条多点总线上的能力,以增加存储器容量,提高库交错能力并提供应用灵活性。在各种类型的DRAM存储器中,DDR和RDRAM器件允许多点配置。此外,RDRAM协议能够在当前线程结束之前并行存取后续的数据包,允许的流水线操作最多达5个。

其它考虑因素包括存储器的成本、元件数量和功耗。诸如RLDRAM等专用存储器芯片的价格(按每比特算)一般是传统DRAM的两倍。与此形成鲜明对比的是,DDR和RDRAM存储器得到了广泛应用,从而确保了大规模生产的成本优势。其中,DDR存储器具有最低的价格,但它的速度比专用存储器慢,而且在每块电路板上需要有更多的引脚和芯片,从而使空间和功耗受到更大的限制。另外,因为每个芯片上只有四个库,所以DDR存储器似乎具有更低的性能效率。

与之相比,同样得到广泛应用的RDRAM存储器由于在一个芯片上有32个库,所以能提供高性能。因此,虽然RDRAM器件可以采用多点信令,但它们很可能不需要多个芯片来获得稳定的高带宽。相反地,它们可以通过在众多片上库之间进行切换来实现高性能。出于这些原因,再加上RDRAM具有比DDR更高的I/O频率(前者高于1 GHz,后者为400 MHz),所以RDRAM器件存取数据的速度约是传统DRAM的四倍。

随着设计人员把目标瞄向OC-768速率,他们需要把缓冲存储器的性能提升到近20GBps,这将使NPU的引脚数目达到倒装封装的极限值。幸运的是,一种超快的下一代存储器技术已经问世,这种代号为Yellowstone的器件预计将运行在3.2GHz的I/O频率下,并计划升级到6.4GHz及更高的频率,从而促使存储器带宽达到100GBps。

作者:Michael Ching


产品行销经理


Rambus公司






我来评论 - 包缓冲存储器带宽将成为网络处理器的性能瓶颈
评论:
*? 您还能输入[0]字
分享到: 新浪微博 qq空间
验证码:
????????????????
?

关注电子工程专辑微信
扫描以下二维码或添加微信号“eet-china”

访问电子工程专辑手机网站
随时把握电子产业动态,请扫描以下二维码

?

5G网络在提供1Gbps至10Gbps吞吐量方面具有很好的前途, 并且功耗要求比今天的网络和手机都要低,同时还能为关键应用提供严格的延时性能。本期封面故事将会与您分享5G的关键技术发展,以及在4G网络上有怎样的进步。

?
?
有问题请反馈
推荐到论坛,赢取4积分X