SNB处理器-EDA365

SNB处理器

　　SNB处理器
　　SNB(Sandy Bridge )是英特尔在2011年初发布的新一代处理器微架构，仍然保持酷睿i3、i5、i7三个系列，分别针对入门级、主流应用和高端用户。现有的酷睿i系列已经是智能处理器了，而SNB在此基础上智能特性全面升级，并且无缝融合了图形显示核心。　英特尔这次推出的SNB处理器还重新定义了“整合平台”的概念，之前沿用多年的“集成显卡”将一去不复返，取而代之的是被处理器“无缝融合”的“核芯显卡”。
　　简单地说，SNB（sandy bridge）是intel今年的产品。
　　SNB称为Bridge，是因为它是环形架构。SNB是平面的32nm工艺技术。
　　NB一般来讲是指北桥（north bridge）芯片，是离cpu最近的芯片，北桥是控制内存与CPU的联系的，有控制内存的作用。NB频率则直接影响到内存的速度。上一代的westmere、现在的SNB、明年的IVB的CPU中都集成了北桥内存控制器，还集成了显示芯片（就是所谓的核心显卡），所以表面上看功耗比较高。
　　另外SB一般是南桥（south bridge）的意思，为了避免混淆，所以sandy bridge称为SNB。
　　NB、SB都是指主板上或者集成到CPU中的一种芯片，而SNB是指一代平台，主要指CPU，也包括用于这一代CPU的主板。
　　SNB架构开启智能新时代
　　在今年的年初，英特尔高调发布了全新的Sandy Bridge酷睿家族，而远在大洋彼岸的拉斯维加斯也顺利的召开了ces大展，丰富的产品让2011年伊始便发出了格外夺目的色彩。新品的发布，让不少的玩家都再次有了升级电脑，攒新换旧的念想。
　　在节前，村里的经销商们也都开始忙里忙外，推出了各式各样的促销活动，以迎接这一崭新的一年。相信不少的用户都在节前攒配好了自己的机器，而也有不少的用户持观望的态度，毕竟对于新的产品，很多细节都还不是很了解。今天，就让我们走进SNB，深入了解一下第二代英特尔智能酷睿处理器的几大秘笈。
　　这款被Intel寄予厚望的架构产品在命名上采取了全新的方式。之前我们一直所称的Sandy Bridge被赋予了第二代英智能酷睿处理器的名号，而其具体的产品名称将继续沿用酷睿这一命名方式，不过数字编号部分升级成为了4位。三条产品线分别为高端酷睿i7，中端酷睿i5和低端酷睿i3。而未来还将会推出基于相同架构的更为地段产品奔腾和赛扬处理器。
　　从已知的消息中我们了解到，新的第二代英智能酷睿处理器在明年发布时将推出共13个型号。仍然沿用酷睿i7/i5/i3的品牌搭配子系列命名方式，编号上则采用四位数字：
　　其中第一位均为“2”，代表第二代Core ix系列，最后末尾往往还有一个代表不同含义的字母：K代表不锁定倍频，都是高端产品；S代表性能优化，原始频率比没有字母后缀的低很多，但是单核心加速最高频率基本相同，另外热设计功耗都是65W；T代表功耗优化，热设计功耗只有45W或35W，但是频率也是最低的。另外它们还将全部整合图形核心，而且SandyBrige的显示核心的频率也会拥有动态加速的功能。能够根据负载来自动调节频率的高低。
　　第二代英特尔智能酷睿处理器架构解析
　　在前面，我们已经了解到了第二代英智能酷睿处理器的产品线划分，也能看出英特尔在产品线划分上已经不单单是依据处理器的频率及硬件参数，更多的时候睿频加速技术2.0，超线程等智能技术也成为了产品划分的依据。那么对于第二代英智能酷睿处理器而言，其架构是怎样的一个变化？
　　其实从高级层面角度看，SNB架构只是一次进化，但是如果看看Nehalem/Westmere以来晶体管变化的规模，那就足以称得上是一次革命。从下面的图便可以看出英特尔第二代英智能酷睿处理器在核心架构较上代产品有了变化。
　　我们可以看到与上代产品相比，SNB的核芯显卡芯片与处理器完全集成在了一起，而内存控制器也进一步进行了集成。在SNB中，三级缓存依然延续。其中L1缓存的设计与酷睿微架构相同，而L2缓存则采用超低延迟的设计，而L3缓存也依然采用的是共享式设计。英特尔第二代英智能酷睿处理器的酷睿i3、i5、i7依然可以通过对超线程技术的支持与否而划分定位。虽然处理器型号不同不过架构基本类似。
　　英特尔第二代英智能酷睿处理器产品的三级缓存由核心完全共享，它几乎可以处理所有的一致性流量问题，同时不需要单独打扰每颗独立核心自己的L1、L2缓存。优秀的架构所赋予的诸多全新特性为新酷睿家族处理器提供了强大的性能保证。当然，在英特尔第二代英智能酷睿处理器身上还有许许多多的变化，下面就让我们更加细致的来一起了解。
　　第二代英特尔智能酷睿处理器-核芯显卡
　　其实在Westmere中，酷睿i5/酷睿i3虽然也自带了图形核心，但与CPU是双内核封装，只是通过45nm工艺、更多着色硬件、更高频率提升了性能，SNB架构的第二代英智能酷睿处理器则将CPU、GPU封装在同一内核中，全部采用32nm工艺，特别是显著提高了IPC(指令/时钟)。
　　Sandy Bridge架构显示能力的简单介绍，Sandy Bridge的GPU和CPU被制造在同一32nm技术核心（DIE）内，而不再是封装在一个PCB上的2个核心。更让人激动的是GPU和CPU拥有共享的L3 Cache和内存控制器，并都挂在高带宽的芯片内环形总线上，这一改变是革命性的，英特尔核芯显卡为处理器市场树立了新的里程碑。同时，Sandy Bridge的GPU将享受到独立型GPU都无法企望的与CPU最深级别的数据共享和响应速度。融合为王，性能至上的观点在该芯片之上得到了很好的延续。
　　可编程着色硬件被称为EU，包含着色器、核心、执行单元等，可以从多个线程双发射时取指令。内部ISA映射和绝大多数DX10 API指令一一对应，架构很像CISC，结果就是有效扩大了EU的宽度，IPC也显著提升。抽象数学运算由EU内的硬件负责，性能得以同步提高。Intel表示，正弦(sine)、余弦(cosine)操作的速度比现在的HD Graphics提升了几个数量级。
　　英特尔此前的图形架构中，寄存器文件都是即时重新分配的。如果一个线程需要的寄存器较少，剩余寄存器jiuihui分配给其他线程。这样虽能节省核心面积，但也会限制性能，很多时候线程可能会面临没有寄存器可用的尴尬。芯片组集成时代，每个线程平均64个寄存器，Westmere时代的HD Graphics提高到平均80个，SNB则每个线程固定为120个。SNB里每个EU的指令吞吐量都比现在的HD Graphics增加了一倍。
　　在第二代智能英特尔酷睿处理器所发布的产品当中，酷睿i5 2500K(网购最低价 1167.0元)以及酷睿i7 2600K(网购最低价 1800.0元)是唯一两款具备了12个EU执行单元的产品，因此他们的显示性能表现更强。
　　第二代英特尔智能酷睿处理器的核芯显卡有自己的电源岛和时钟域，也支持Turbo Boost技术，可以独立加速或降频，并共享三级缓存。显卡驱动会控制访问三级缓存的权限，甚至可以限制GPU使用多少缓存。将图形数据放在缓存里就不用绕道去遥远而“缓慢”的内存了，这对提升性能、降低功耗都大有裨益。
　　据了解Sandy Bridge图形核心在睿频技术的帮助下最高可以达到1350MHz，如此之高的核心频率想必会帮助显示核心性能大幅度增长。
　　第二代英特尔智能酷睿处理器 - 媒体加速
　　在前面我们了解了第二代英智能酷睿处理器集成的核芯显卡的特性及架构，那么对于第二代英智能酷睿处理器产品而言，它们与上一代的产品相比都有哪些不同的特性及优秀的功能呢？它的性能表现相比上代产品又有着哪些的改变呢？
　　第二代英特尔智能酷睿处理器集成的GPU图形核心分为两大版本，分别拥有6个、12个EU。首批发布的移动版全部是12个EU，桌面版则根据型号不同而有两种配置，高端12个、低端6个。得益于每个EU吞吐量翻番、运行频率更高、共享三级缓存等特点，即使只有六个的时候性能也会相当令人满意。
　　得益于以上种种升级与改进，SandyBridge可轻而易举地支持立体3D蓝光电影播放和高清在线电视。为消费者提供更优异、更清晰的画面，同时提供所有这些性能的同时却更加省电和节省电池用量。值得一提的是，SandyBridge还拥有全新、实用的技术，实现超出常规和预期的速度和数据传送的提升。其中的英特尔无线显示技术（Intel WirelessDisplay）即可将高清内容无线传输至大屏幕电视。
　　同时在媒体特性等方面，全新的酷睿家族平台同上一代产品相比也有着很大的突破。其中全新的酷睿家族平台能够支持双视频解码，在颜色控制，HDMI输出等方面也有提升。
　　同时SNB中还有一个媒体处理器，专门负责视频解码、编码。新的硬件加速解码引擎中，整个视频管线都通过固定功能单元进行解码，和现在正好相反。Intel据此宣称，SNB在播放视频的时候功耗可降低一半。
　　这种多媒体逻辑和ATI/NVIDIA的GPU设计非常相似，而之前Intel是一直使用CPU逻辑进行多媒体视频操作的，尤其是编码方面。Sandy Bridge的这个媒体处理器让我们有些迷惑：这明显就是Intel的硬件编码/解码方案，蓝色巨头似乎悄悄的放弃了继续使用x86 CPU+软件在视频处理上与NVIDIA那些怪兽级别GPU的硬件解码、编码对抗。在未来，Sandy Bridge所带来的完美视觉，必将成为主流之选。
　　第二代英特尔智能酷睿处理器-高速视频同步
　　高速视频同步乍听起来似乎并不是特别易懂，不过如果说是视频编解码技术应该就能够好理解的多了。第二代英智能酷睿处理器有一项名为Quick Sync Video（高速视频同步）的功能，该功能便是英特尔HD显卡所具备的最新视频转码功能。
　　虽然视频转码并非新鲜事，在NVIDIA或者是AMD的显卡中都能够很好的支持，不过英特尔之前的集成显卡完全只能依靠CPU软解码。
　　在新一代HD显卡上，英特尔加强了核芯显卡的通用计算能力，增加了对视频转码的支持，缩短了转换时间的消耗。英特尔Quick Sync Video（高速视频同步）技术通过处理器的硬件解码来进行运算，让视频转换变得更加轻松。
　　在最新的Media Converter 7中，我们已经能够看到该软件对Intel Quick Synv Video（高速视频同步）技术的支持。该软件能够调节视频转码所使用的处理器的核心数量，同时能够自动识别处理器是否能够支持高速视频同步。同时该软件能够支持将普通片源转换为3D效果，英特尔具备高速视频同步技术的处理器产品无疑能够提供更好的选择。
　　可以看出，第二代英特尔智能酷睿处理器的全线产品均能够支持Quick Sync Video（高速视频同步）技术，这无疑为消费者们带来了更好的体验，也正是高速视频同步技术的出现令第二代英特尔智能酷睿处理器成为一款划时代的产品奠定了更多基础。
　　第二代智能酷睿处理器-睿频加速2.0
　　在Nehalem架构处理器发布之时，Intel推出了一个用于提高CPU核心工作效率的新技术，官方名称Turbo Boost睿频加速技术。该技术的理解很简单，就是利用处理器核心空闲时的TDP，转移到正在全速运算的核心之上，提高该核心的或者多个核心的频率以换取更高的性能。
　　该技术的运用进一步提高了处理器的智能化，也在节能的同时提高了处理器的运行效率。时隔2年之后，Sandy Bridge推出了Turbo Boost睿频加速技术第二代技术。
　　第二代睿频加速技术其实可以算作是第一代睿频加速技术的加强版，主要加强了在多核心情况下处理器核心频率能够进一步提高。说的简单一些就是多核心下原有第一代可能提高1个倍频，在二代情况下有可能提高的是2个倍频甚至更多。这也就是说在第二代睿频加速技术的帮助下，无论是单线程还是多线程Sandy Bridge处理器都可以获得非常优秀的性能表现。即使是主频较低的产品。
　　现有处理器都是假设一旦开启动态加速，就会达到TDP限制，但事实上并非如此，处理器不会立即变得很热，而是有一段时间发热量距离TDP还差很多。SNB利用这一点特性，允许单元控制单元(PCU)在短时间内将活跃核心加速到TDP以上，然后慢慢降下来。PCU会在空闲时跟踪散热剩余空间，在系统负载加大时予以利用。处理器空闲的时间越长，能够超越TDP的时间就越长，但最长不超过25秒钟。所以第二代睿频加速实际上就是PCU*单元不断监测CPU内每个核心的状态，一旦有一个或多个多个内核处于Unactive状态，PCU就会自动提升处于Active状态的内核的运行频率，直到达到TDP限制。
　　同时由于核芯显卡也整合在同一芯片，因此Sandy Bridge架构也把核芯显卡的TDP纳入睿频加速的超频空间。当中包括3D Processing Unit、Execution Units及Media Processing Unit，当它们闲置时会把TDP的超频空间也转化给处理单元，反之处理单元闲置也可把TDP变成图形单元的超频空间。
　　* PCU：Intel专门在CPU内部设计了PCU（Power Control Unit，功耗控制）单元，PCU会以1ms（每秒1000次）的速度实时监测这四个核心的温度、电流及功耗等参数。
　　第二代智能酷睿处理器-超线程技术
　　第二代智能酷睿处理器中超线程技术也成为了不可不提的智能应用。其中从前面的产品分布表格中我们便可以看出，核心数量，睿频加速技术2.0和超线程已经成为了划分产品定位的标准。我们知道，Nehalem架构重新启用了曾经在NetBurst上应用过的超线程技术，不过已经更名为同步多线程技术（Simultaneous Multi-Threading，SMT）。NetBurst架构上的超线程技术局限于FSB和内存传输数据带宽，实际带来的性能提升可能并不明显，因此后来的酷睿2处理器直接抛弃了超线程技术。
　　SandyBrige架构将QPI和集成内存控制器引入后直接带来惊人的带宽，重新启动同步多线程技术毫无疑问不用再担心传输带宽所产生的瓶颈。
　　第二代智能酷睿处理器所采用的同步多线程技术基于2路设计，即每颗核心可以同时执行2个线程。在多任务情况下可以有效提升性能，采用这种模拟的逻辑运算核心绝对比直接增加一颗物理运算核心成本低。Intel表示SMT技术可以在能耗增加不明显的情况下提升20-30%性能。
　　第二代智能酷睿处理器-AVX指令集
　　除了二代增强型的睿频加速功能以及超线程技术等等之外，Sandy Bridge还将是第一个拥有高级矢量扩展指令集（Advanced Vector Extensions）的微架构。AVX，即Advanced Vector Extensions高级矢量扩展。AVX的特点由以下几个方面展现：
　　>>从128bit扩展到256bit的SIMD运算单元；
　　>>增强的数据重排，单个操作可同时处理8个32-bit共256bit数据
　　>>单条指令支持3操作数和4操作数
　　>>支持弹性的访存地址不对齐
　　>>AVX指令支持VEX前缀
　　这些运算逻辑上的技术细节让人头大，落实到应用上，AVX主要针对密集型浮点运算，3D游戏、CAD/CAM、数字内容创建等应用是这类计算的代表。Intel宣称，Sandy Bridge的AVX进行矩阵计算的时候将比SSE技术快90%！
　　核心面积的精简正是AVX指令(SNB最主要革新之一)集得以实现并保证良好性能的关键所在。以最小的核心面积代价，Intel将所有SIMD单元都转向了256-bit。
　　AVX支持256-bit操作数，相当消耗晶体管与核心面积，而RPF的使用加大了乱序执行缓冲，能够很好地满足更高吞吐量的浮点引擎。
　　SNB允许256-bit AVX指令借用128-bit的整数SIMD数据路径，这就使用最小的核心面积实现了双倍的浮点吞吐量，每个时钟可以进行两个256-bit AVX操作。另外执行硬件和路径的上位128-bit是受电源栅极(Power Gate)控制的，标准128-bit SSE操作不因为256-bit扩展增加功耗。