| Shi's profileItany有话说PhotosBlogLists | Help |
|
September 30 新宋国歌:彰显中华气势中土之邦,
聚天地之灵光。
盛世兮,
国运长,
千秋,万代,
永沐荣光。
大宋儿郎,
加皇恩,
于海外,
皇之雄威,
威四海,
镇八方,
使那率土之滨,
莫非皇土,
四海夷民,
尽皆仰望!
神明,
佑我大宋,
佑我,
大宋,
万世长! September 25 CSI:新形势下芯片互联的必由之路 众所周知,Intel的Core架构的Xeon在内核上相对于AMD的K8 Opteron存在着很大的优势,但是Intel并没有乘胜追击,将Core架构引入到4插座系统当中去,而是凭借着更先进的制程,采用多管芯封装技术,将两片Woodcrest封装在一起,形成4核心的Clowertown处理器,在双插座市场上发力;而AMD没有办法及时推出4核心,以致在4插座市场上颇受影响。但是,有道是“杀敌一千,自损八百”,在侵蚀AMD四插座市场的同时,Intel自家的四插座双核心Xeon MP,代号Tulsa,也受到了毁灭性的打击。显然,四插座服务器定位于高端应用,其处理器的价格远远高于双插座的处理器,既然是这样,为什么Intel会用双插座处理器去侵蚀四插座市场呢?这与Intel目前的互连结构是有关系的。
Intel目前的Xeon处理器仍然采用了传统的FSB,也就是前端总线进行连接。FSB的历史最早可以追溯到Pentium Pro的年代,从那时起,Intel的处理器实现了SMP,也就是对称多处理器,从此x86也可以像IBM的Power和Sun的SPARCS处理器一样,在一个服务器上使用两块甚至多块处理器,从而大大加强承担负载的能力。也就是从那时起,确定了处理器通过FSB连接到北桥,再通过北桥内置的内存控制器访问系统内存,并通过北桥和南桥的连接,进而利用南桥来访问外部设备,实现输入输出。对于多处理器系统,多个处理器共享一个FSB连接到北桥,再通过北桥里边的内存控制器来访问内存。FSB是抢占性的,通过仲裁器决定哪一个处理器可以占用总线。多少年来,处理器的内核日新月异,但是FSB坚强的保留了下来,在推出Pentium4的时候,也是仅仅引进了四泵式传输模式,也就是时钟信号触发一次,进行四次数据传输,两次地址传输,一次指令传输,其它的逻辑没有变化,可以称之为对FSB大的升级,但并不是革命性的进步。目前,Intel在5000系列芯片组当中采用了双独立FSB,也就是在双插座系统里边,每个处理器通过单独的FSB连接到北桥,这样不同的处理器之间就不会出现一个处理器占用总线而另一个在等待的情况了,但是不同的处理器还是共用相同的内存控制器,这样不同的处理器之间还是要争夺内存的带宽。
随着Intel将四核心处理器引入到四插座系统当中,这种共享的内存带宽就显得更加的不足了。我们不妨对比一下Tigerton系统和桌面系统的每个核心分到的内存带宽的差别。在和Tigerton搭配的7300系列芯片组可以给四个当中的每个插座提供一个独立的前端总线,最高可以达到FSB 1600,可以给每个处理器提供12.8GB/s的带宽。为了提高内存的带宽,Intel也进行了很大的努力,很早就引进了FB-DIMM内存,也就是在普通DDR2内存的DIMM上加上一颗桥接芯片,从而将原来的并行信号转换成串行信号传输到芯片组,这样虽然单个通道的内存带宽还是取决于DDR2内存本身工作频率的限制,但是由于串行相比并行在信号转输上需要的信号线小得多,抗干扰能力也强得多,因而FB-DIMM可以实现普通DDR2内存根本j无法实现的四通道,内存带宽对于双通道来说就加倍了。但是,即使是这样,总的内存带宽仍然只有21.2GB/s,平摊到每个处理器的四个核心上只有5.3GB/s。而对于桌面系统来说,对于P35搭配DDR3 1066,可以很容易的实现17.1GB/s的内存带宽,这个时候FSB 1333提供的10.7GB/s带宽就成为了瓶颈,然而即便这样,桌面的四核心得到的带宽仍然是服务器平台上的2倍。众所周知,服务器的应用远比桌面系统需要更多的内存吞吐量,而现实中服务器处理器得到的内存带宽却是同桌面处理器倒挂的,这不能不让人觉得遗憾。此外,在多处理器系统中,不同处理器之间需要进行缓存同步,在FSB这样的架构下,缓存同步要通过读写内存来实现,造成处理器缓存之间访问的延迟很大,而处理器通过FSB到北桥访问内存,尤其是访问本身延迟就很大的FB-DIMM内存,延迟就更加显著了。随着处理器核心性能的提高,以及核心数量的急剧增长,FSB正在日益成为瓶颈,必须加以解决。
现在Intel正式的提出了CSI总线,来实现芯片之间的直接互联,而不是在通过FSB连接到北桥。在这种系统架构下,每个处理器直接集成内存控制器。对于第一代采用CSI总线的Nehalem Xeon来说,集成了3通道的DDR3内存控制器,这样在搭配DDR3 1066的情况下,每个处理器自己就能得到25.6GB/s的内存带宽,大概是现在Tigerton系统的5倍,并且这个带宽数量随着处理器插座的增长而增长,对于四插座系统,总的带宽将增长到恐怖的102.4GB/s。强大的内存性能将保证即使每个插座上边采用8核心的处理器,内存带宽也不会成为性能发挥的瓶颈。不同的处理器之间通过CSI总线相相互连接,对于四路系统来说,任何两个处理器之间都可以直接通信,这样,一个处理器可以很方便的访问到其他处理器控制的内存。相对于某个处理器来说,我们把它自己控制的内存叫做本地内存,其他处理器控制的内存叫做非本地内存。显然,处理器在读取数据的时候会首先试图在自己的缓存里边找到这个数据,如果没有会判断是不是在本地内存里边,如果在的话就直接当问内存读取,不再的话就会启动一个嗅探的过程,向其他处理器索要数据,如果其他处理器的缓存内有这个数据,将直接提供,否则将访问内存读到这个数据,可见,在绝大多数情况下,在CSI系统里边处理器都可以更快捷的访问到数据,在最糟糕的情况下,即处理器通过其他处理器访问内存,也仅仅和FSB模式下通过北桥访问内存的情况相当,而CSI相对FSB的延迟更小,因而在任何情况下延迟都是减小的。另外,由于在CSI系统下不同处理器可以直接通信,同步缓存称为很方便的事情,再也不用通过北桥的内存读写来进行了。
CSI不仅是一个总线,它也是一个系统互联的架构。它同集成内存控制器一道,将为服务器领域的性能提升奠定一个稳定良好的系统结构基础。在前几天结束的IDF美国会议上,我们很欣喜的看到首个采用CSI互联架构的Nehalem已经可以正常运行了。我们有理由相信,CSI将冲破内存性能带来的樊篱,实现性能的新飞跃。 |
|
|