阵列处理器
阵列处理器-简介 1971年的处理器芯片以及在其基础上发展而来的PC机的问世,使计算机的应用从科学殿堂走进了“寻常百姓家”,同时开辟了计算机嵌入式应用的 新模式,促进了工业产品的知识化/智能化。随着芯片集成度的提高与计算模式的演变,如图1所示,1987年人们提出了系统芯片(SoC,System on Chip)的概念,要将计算机的系统设计也转移到芯片设计上来。从提出一个新概念到这一概念的成果市场化,一般大约需要30年左右的时间。系统芯片概念提 出之后,经过20多年的努力,逐渐形成了两种系统芯片。一种是以处理器为IP核的多处理器系统芯片(MP SoC,Multi Processor SoC),简称MP系统芯片;另一种是根据并行计算技术与深亚微米技术的发展需要而发展起来的大规模并行处理系统芯片(MPP SoC, Massively Parallel Processing SoC),简称MPP系统芯片。因为采用了阵列的实现方法,对处理器来说又可以叫做阵列处理器(Array Processor)。下面将主要讨论嵌入式阵列处理器的阵列设计、制造技术与应用领域的新发展。
图1 芯片集成度,计算模式与芯片体系结构的发展
阵列处理器-阵列设计的发展
处理器芯片,以及在其基础上发展起来的MP系统芯片,设计和应用都发展得比较成熟。目前许多嵌入式计算机的系统设计,已经转移到嵌入式MP系统 芯片的设计上来;不仅如此,1985年开始的FPGA技术,在2000年就推出了带嵌入式处理器ARM的FPGA芯片,现在已发展成了嵌入式MP系统芯片 的一种硬件设计平台。国内已研制出以8位、16位以及32位处理器为核心的,与应用领域紧密相关的嵌入式MP系统芯片。随着嵌入式应用的微型化与并行计算 的要求越来越高,以及深亚微米技术的不断发展所带来的“红墙”问题,使嵌入式阵列处理器的设计成了新的研究热点。
为了航空航天图像处理电子设备的微型化,美国休斯(Hughes)公司在3um CMOS工艺的基础上,采用圆片级的3D 二次集成电路技术,按照SIMD PE阵列的体系结构,于1987年10月就研制成功了一种3D 阵列处理器。该阵列处理器由5个大圆片(Wafer)组成了32×32个16位定点处理元的PE阵列,工作频率10 MHz,峰值速度为600 MOPS,功耗约1.5W,体积只有手掌大小,如图2所示。除了32×32的PE阵列外,休斯公司还先后研制了每个大圆片上有128×128与 256×256(=65536)个功能模块的阵列处理器。
图2 休斯公司的第一台3-D MPP计算机
与其它嵌入式处理器不同,嵌入式阵列处理器设 计的发展,从休斯公司的图像处理的阵列处理器可以看出,是由成千上万的处理元PE的阵列组成的。其它的阵列处理器是存在一个并行编程的语言问题的,早期的 解决方法是把常用的程序设计语言扩充成并行程序设计语言,但没有得到推广;现在的解决方法是采用面向并行编程模式的映射语言。由于图像处理的嵌入式阵列处理器, 是一种支持数据并行计算的可编程的阵列处理器,采用的是指令流计算模式的SIMD PE阵列的体系结构,与超级计算的阵列处理器不同。这是一种自然的实现数据并行计算的阵列处理器的体系结构,因为按时间映射方法执行数据并行算法 时,SIMD PE阵列上所有PE每个周期执行的是同样的一条指令的“数组操作”,数组大小理论上是没有限制的;SIMD PE阵列的阵列处理器可以看作是数据并行算法的算法处理器(Algorithm Processor),而不必看作是一个多处理器,从而得到了图像处理器的并行编程简单性、高效性与通用性。由于SIMD计算方式对数据并行计算的效果非 常显著,在有些处理器/多核处理器/众核处理器的指令集合中,也增加了支持SIMD 计算的MMX指令。
图3 大圆片的立体组装技
现代的阵列处理器的PE阵列基本上是支持两维算法的,因为现在计算机的传感器输入主要是空间上的两维阵列,显示器输出也主要还是空间上的两维阵 列,相应的PE阵列自然是两维的;而可视空间是三维的,计算科学家是通过立体视觉算法在两维阵列的显示器上形成三维的立体感的。其实,随应用领域的不同, 完成空间并行计算的阵列处理器还可以是三维的。阵列大小是可以系列化的,阵列设计的发展主要是处理元PE的概念,以及处理元PE中的操作的概念,都应当是 广义的,还有一般处理器中所没有的处理元PE之间的互连方法以及阵列处理器芯片之间的互连方法。
随应用领域的不同,处理元PE的设计参数(字长精度、存储容量与运算速度,以及体积、重量、功耗与可靠性等)是可以像处理器一样系列化的。不仅 如此,为了实现阵列处理器芯片的换代作用,使阵列处理器芯片不仅能够替代处理器芯片,还可以替代现在的可重构的空间映射的并行处理芯片(静态可重构的 FPGA芯片与动态可重构的RC Device芯片),处理元PE的概念应当是广义的。随应用领域的要求不同,可以是现在已知的处理器(RISC/DSP),也可以是现在未知的,例 如,RC Device阵列中的功能模块,FPGA阵列中的逻辑门或神经元,FPAA阵列中的模拟器件,FPTA阵列中的晶体管等。相应的处理元PE中的操作的概念 也是广义的,可以是现在已知的处理器操作(算术/逻辑等);也可以是现在未知的“操作”,例如,对模拟器件的“操作”,对晶体管的“操作”等。处理元PE 之间的互连方法以及阵列处理器芯片之间的互连方法,现在都还没有发展到成熟的地步,为阵列设计提供了广阔的发展空间。
表1 Intel阵列处理器的性能
阵列处理器-制造技术的发展
虽然图像处理的嵌入式阵列处理器是在芯片特征尺寸不是很小的情况下就开始研制的,但是,它从扩大芯片面积与3D集成方面,推动了芯片制造技术的新发展。例如,美国休斯(Hughes)公司 在特征尺寸为3um CMOS工艺的基础上,采用很有特点的圆片规模集成WSI( Wafer Scale Integration) 电路技术,把圆片上的芯片互连起来,并采用了设计上的避错技术(这也是现在解决“红墙”问题时,芯片设计中要采用的技术),将一次集成电路的面积从芯片扩 大到了圆片;而圆片之间又采用了3D的二次集成电路技术,包括硅圆片的穿通(Feedthroughs)技术,相邻大圆片之间的微桥互连 (Interconnects)技术,以及多个大圆片的三维组装技术(Assembly Technology),如图3中所示,就研制成功了成千上万个处理元PE阵列的图像处理的阵列处理器。
值得指出的是,3D二次集成电路技术也是高性能阵列处理器中所要用的技术。例如,Intel提出了一个名叫Tera-Scale的计 划,2007年初采用65nm工艺,总共集成了1亿(100 Million)晶体管,一共采用了80个比现代处理器简单的处理元PE。PE阵列与SRAM存储器阵列的互连也是采用3D 二次集成电路技术实现的,如图4所示,Intel阵列处理器的性能,如表1中所示,每个芯片都达到了每秒1万亿次的水平。
(a)Intel的MPP系统芯片
(b) 处理元PE之间的互连方法
图4 Intel的Tera-Scale计划的阵列处理器
因为采用芯片四边引线的办法,单个芯片上的I/O引脚数目不能随芯片集成度的提高成比例增长,采用3D二次集成电路技术解决单个芯片上的I/O 引脚数目与“红墙”问题,取得了成功,得到了发展。特别是TSV(Through-Silicon-Vias)方法的3D二次集成电路技术可以显著地缩短 芯片之间的连线长度,增大信号带宽;使整机(或系统)与外部连接点大大减少,进一步提高可靠性。2007年4月IBM公司发布将采用TSV技术研制三维芯 片;Samsung公司也计划用TSV技术制作三维内存芯片。
阵列处理器-应用领域的发展
从应用环境来说,阵列处理器用在地基(陆基、海基和空基)应用环境中,是不会有争议的。自从1957年10月4日第一颗人造卫星上天以后,人类 从此进入太空时代。嵌入式计算机也越来越多的用到了天基应用环境中。尽管天基应用的芯片数量目前远少于地基应用的芯片数量,正如电子管计算机刚发明的时 候,运算速度、存储容量、体积功耗和可靠性等都是限制它广泛应用的关键因素,因此有人就说全世界有几台电子管计算机就够了。但是,计算机符合人类从工业社 会向知识社会发展的方向,是人们梦寐以求的建立知识社会的脑力劳动工具。人们看到了电子管计算机剩下的问题,就是寻找新的物理技术来实现二进制位的功能, 于是,有了晶体管和集成电路的发明,使计算机的体积更小,功能更强,速度更快,容量更大,价格更低与可靠性更高。计算机终于成了今天妇孺皆知的知识产业的 基础,芯片成了工业发展的面包。同样,虽然现在的嵌入式计算机的体积、功耗、性能、可靠性、寿命与价格等都是限制它天基应用的关键因素,但天基应用是人类 从地球走向太空的一个发展方向,太空的经济时代已经到来。人们将会通过促进芯片技术的新发展,使更多的计算机嵌入到天基计算机网络中去,天基应用将是嵌入式阵列处理器的一个重要的应用领域。
嵌入式阵列处理器芯片的发展,除了使工业产品越来越知识化/智能化,还将能使嵌入式计算机以芯片的形式,悄悄融入我们的生活环境中,使人与计算机的生理界限逐渐消失,从客观世界进入我们的主观世界(身体)。
阵列处理器-发展的前景
如何设计阵列处理器(包括嵌入式阵列处理器), 首先是人才队伍问题。我国现有芯片设计单位500来家,但规模小,50人以下的公司超过了半数。整合成了当前国内IC 设计业的热门话题。例如,有人说“由于市场竞争激烈,许多资金不足的初创公司不会坚持太久,加上国外风险投资公司逐渐淡出,预计今后将有更多的公司,走上 兼并重组之路”。而通过公司的兼并重组是不能壮大芯片设计队伍,解决资金不足的问题的。其实,就像处理器的应用那样,通过PC计算机使计算机成了各个领域 的脑力劳动工具,通过嵌入式计算机使工业产品知识化/智能化,使计算机的应用从科学殿堂走进“寻常百姓家”,成了一种真正的草根运动。例如,处理器嵌入到 相机中出现了“傻瓜”相机;如果你把手机换成了iPhone,就会发现你与手机的交互发生了变化,可触与直观的屏幕取代了键盘,进一步降低了人与计算机的 生理界限。微软公司估计,人与计算机的生理界限将在10年之后彻底消失。阵列处理器的设计也是一种计算机的应用,就像PC机与嵌入式计算机普及与简化了计 算机的应用一样,通过先进的阵列处理器设计平台,使阵列处理器的设计普及到各种应用领域的系统设计者中去,成为一种草根运动,可能会更快地壮大芯片设计队 伍,解决资金不足的问题。
从计算机的制造上来说,人们估计到2010年后,基于光刻技术采用SiGe的CMOS工艺的制造能力达到它的30nm极限时,将会使线的延迟比 门的延迟越来越重要,特征尺寸已小得使芯片缺陷不可避免,以及漏电流与功耗变得非常重要。阵列处理器是解决这些“红墙”问题所需要的。从计算机的应用上来 说,阵列处理器是通过并行计算提高计算性能的有效办法,具有处理器那样的通用性。所以,阵列处理器(包括嵌入式阵列处理器)具有换代作用的发展前景。
图1 芯片集成度,计算模式与芯片体系结构的发展
阵列处理器-阵列设计的发展
处理器芯片,以及在其基础上发展起来的MP系统芯片,设计和应用都发展得比较成熟。目前许多嵌入式计算机的系统设计,已经转移到嵌入式MP系统 芯片的设计上来;不仅如此,1985年开始的FPGA技术,在2000年就推出了带嵌入式处理器ARM的FPGA芯片,现在已发展成了嵌入式MP系统芯片 的一种硬件设计平台。国内已研制出以8位、16位以及32位处理器为核心的,与应用领域紧密相关的嵌入式MP系统芯片。随着嵌入式应用的微型化与并行计算 的要求越来越高,以及深亚微米技术的不断发展所带来的“红墙”问题,使嵌入式阵列处理器的设计成了新的研究热点。
为了航空航天图像处理电子设备的微型化,美国休斯(Hughes)公司在3um CMOS工艺的基础上,采用圆片级的3D 二次集成电路技术,按照SIMD PE阵列的体系结构,于1987年10月就研制成功了一种3D 阵列处理器。该阵列处理器由5个大圆片(Wafer)组成了32×32个16位定点处理元的PE阵列,工作频率10 MHz,峰值速度为600 MOPS,功耗约1.5W,体积只有手掌大小,如图2所示。除了32×32的PE阵列外,休斯公司还先后研制了每个大圆片上有128×128与 256×256(=65536)个功能模块的阵列处理器。
图2 休斯公司的第一台3-D MPP计算机
与其它嵌入式处理器不同,嵌入式阵列处理器设 计的发展,从休斯公司的图像处理的阵列处理器可以看出,是由成千上万的处理元PE的阵列组成的。其它的阵列处理器是存在一个并行编程的语言问题的,早期的 解决方法是把常用的程序设计语言扩充成并行程序设计语言,但没有得到推广;现在的解决方法是采用面向并行编程模式的映射语言。由于图像处理的嵌入式阵列处理器, 是一种支持数据并行计算的可编程的阵列处理器,采用的是指令流计算模式的SIMD PE阵列的体系结构,与超级计算的阵列处理器不同。这是一种自然的实现数据并行计算的阵列处理器的体系结构,因为按时间映射方法执行数据并行算法 时,SIMD PE阵列上所有PE每个周期执行的是同样的一条指令的“数组操作”,数组大小理论上是没有限制的;SIMD PE阵列的阵列处理器可以看作是数据并行算法的算法处理器(Algorithm Processor),而不必看作是一个多处理器,从而得到了图像处理器的并行编程简单性、高效性与通用性。由于SIMD计算方式对数据并行计算的效果非 常显著,在有些处理器/多核处理器/众核处理器的指令集合中,也增加了支持SIMD 计算的MMX指令。
图3 大圆片的立体组装技
现代的阵列处理器的PE阵列基本上是支持两维算法的,因为现在计算机的传感器输入主要是空间上的两维阵列,显示器输出也主要还是空间上的两维阵 列,相应的PE阵列自然是两维的;而可视空间是三维的,计算科学家是通过立体视觉算法在两维阵列的显示器上形成三维的立体感的。其实,随应用领域的不同, 完成空间并行计算的阵列处理器还可以是三维的。阵列大小是可以系列化的,阵列设计的发展主要是处理元PE的概念,以及处理元PE中的操作的概念,都应当是 广义的,还有一般处理器中所没有的处理元PE之间的互连方法以及阵列处理器芯片之间的互连方法。
随应用领域的不同,处理元PE的设计参数(字长精度、存储容量与运算速度,以及体积、重量、功耗与可靠性等)是可以像处理器一样系列化的。不仅 如此,为了实现阵列处理器芯片的换代作用,使阵列处理器芯片不仅能够替代处理器芯片,还可以替代现在的可重构的空间映射的并行处理芯片(静态可重构的 FPGA芯片与动态可重构的RC Device芯片),处理元PE的概念应当是广义的。随应用领域的要求不同,可以是现在已知的处理器(RISC/DSP),也可以是现在未知的,例 如,RC Device阵列中的功能模块,FPGA阵列中的逻辑门或神经元,FPAA阵列中的模拟器件,FPTA阵列中的晶体管等。相应的处理元PE中的操作的概念 也是广义的,可以是现在已知的处理器操作(算术/逻辑等);也可以是现在未知的“操作”,例如,对模拟器件的“操作”,对晶体管的“操作”等。处理元PE 之间的互连方法以及阵列处理器芯片之间的互连方法,现在都还没有发展到成熟的地步,为阵列设计提供了广阔的发展空间。
表1 Intel阵列处理器的性能
阵列处理器-制造技术的发展
虽然图像处理的嵌入式阵列处理器是在芯片特征尺寸不是很小的情况下就开始研制的,但是,它从扩大芯片面积与3D集成方面,推动了芯片制造技术的新发展。例如,美国休斯(Hughes)公司 在特征尺寸为3um CMOS工艺的基础上,采用很有特点的圆片规模集成WSI( Wafer Scale Integration) 电路技术,把圆片上的芯片互连起来,并采用了设计上的避错技术(这也是现在解决“红墙”问题时,芯片设计中要采用的技术),将一次集成电路的面积从芯片扩 大到了圆片;而圆片之间又采用了3D的二次集成电路技术,包括硅圆片的穿通(Feedthroughs)技术,相邻大圆片之间的微桥互连 (Interconnects)技术,以及多个大圆片的三维组装技术(Assembly Technology),如图3中所示,就研制成功了成千上万个处理元PE阵列的图像处理的阵列处理器。
值得指出的是,3D二次集成电路技术也是高性能阵列处理器中所要用的技术。例如,Intel提出了一个名叫Tera-Scale的计 划,2007年初采用65nm工艺,总共集成了1亿(100 Million)晶体管,一共采用了80个比现代处理器简单的处理元PE。PE阵列与SRAM存储器阵列的互连也是采用3D 二次集成电路技术实现的,如图4所示,Intel阵列处理器的性能,如表1中所示,每个芯片都达到了每秒1万亿次的水平。
(a)Intel的MPP系统芯片
(b) 处理元PE之间的互连方法
图4 Intel的Tera-Scale计划的阵列处理器
因为采用芯片四边引线的办法,单个芯片上的I/O引脚数目不能随芯片集成度的提高成比例增长,采用3D二次集成电路技术解决单个芯片上的I/O 引脚数目与“红墙”问题,取得了成功,得到了发展。特别是TSV(Through-Silicon-Vias)方法的3D二次集成电路技术可以显著地缩短 芯片之间的连线长度,增大信号带宽;使整机(或系统)与外部连接点大大减少,进一步提高可靠性。2007年4月IBM公司发布将采用TSV技术研制三维芯 片;Samsung公司也计划用TSV技术制作三维内存芯片。
阵列处理器-应用领域的发展
从应用环境来说,阵列处理器用在地基(陆基、海基和空基)应用环境中,是不会有争议的。自从1957年10月4日第一颗人造卫星上天以后,人类 从此进入太空时代。嵌入式计算机也越来越多的用到了天基应用环境中。尽管天基应用的芯片数量目前远少于地基应用的芯片数量,正如电子管计算机刚发明的时 候,运算速度、存储容量、体积功耗和可靠性等都是限制它广泛应用的关键因素,因此有人就说全世界有几台电子管计算机就够了。但是,计算机符合人类从工业社 会向知识社会发展的方向,是人们梦寐以求的建立知识社会的脑力劳动工具。人们看到了电子管计算机剩下的问题,就是寻找新的物理技术来实现二进制位的功能, 于是,有了晶体管和集成电路的发明,使计算机的体积更小,功能更强,速度更快,容量更大,价格更低与可靠性更高。计算机终于成了今天妇孺皆知的知识产业的 基础,芯片成了工业发展的面包。同样,虽然现在的嵌入式计算机的体积、功耗、性能、可靠性、寿命与价格等都是限制它天基应用的关键因素,但天基应用是人类 从地球走向太空的一个发展方向,太空的经济时代已经到来。人们将会通过促进芯片技术的新发展,使更多的计算机嵌入到天基计算机网络中去,天基应用将是嵌入式阵列处理器的一个重要的应用领域。
嵌入式阵列处理器芯片的发展,除了使工业产品越来越知识化/智能化,还将能使嵌入式计算机以芯片的形式,悄悄融入我们的生活环境中,使人与计算机的生理界限逐渐消失,从客观世界进入我们的主观世界(身体)。
阵列处理器-发展的前景
如何设计阵列处理器(包括嵌入式阵列处理器), 首先是人才队伍问题。我国现有芯片设计单位500来家,但规模小,50人以下的公司超过了半数。整合成了当前国内IC 设计业的热门话题。例如,有人说“由于市场竞争激烈,许多资金不足的初创公司不会坚持太久,加上国外风险投资公司逐渐淡出,预计今后将有更多的公司,走上 兼并重组之路”。而通过公司的兼并重组是不能壮大芯片设计队伍,解决资金不足的问题的。其实,就像处理器的应用那样,通过PC计算机使计算机成了各个领域 的脑力劳动工具,通过嵌入式计算机使工业产品知识化/智能化,使计算机的应用从科学殿堂走进“寻常百姓家”,成了一种真正的草根运动。例如,处理器嵌入到 相机中出现了“傻瓜”相机;如果你把手机换成了iPhone,就会发现你与手机的交互发生了变化,可触与直观的屏幕取代了键盘,进一步降低了人与计算机的 生理界限。微软公司估计,人与计算机的生理界限将在10年之后彻底消失。阵列处理器的设计也是一种计算机的应用,就像PC机与嵌入式计算机普及与简化了计 算机的应用一样,通过先进的阵列处理器设计平台,使阵列处理器的设计普及到各种应用领域的系统设计者中去,成为一种草根运动,可能会更快地壮大芯片设计队 伍,解决资金不足的问题。
从计算机的制造上来说,人们估计到2010年后,基于光刻技术采用SiGe的CMOS工艺的制造能力达到它的30nm极限时,将会使线的延迟比 门的延迟越来越重要,特征尺寸已小得使芯片缺陷不可避免,以及漏电流与功耗变得非常重要。阵列处理器是解决这些“红墙”问题所需要的。从计算机的应用上来 说,阵列处理器是通过并行计算提高计算性能的有效办法,具有处理器那样的通用性。所以,阵列处理器(包括嵌入式阵列处理器)具有换代作用的发展前景。