第3期 2014年6月 中嚼鼋;珂.鼍f唧露限哥氟 Journal of CAEIT Vo1.9 No.3 Jun.2014 doi:10.3969/j.issn.1673-5692.2014.03.014 一种动态的变型向量处理器 吴晨曦 ,杨 惠 2.国防科技大学,长沙410073) (1.阜阳师范学院数学与计算科学学院,安徽阜阳236037; 摘要:嵌入式应用中,单指令流多数据流(SIMD,single instruction multiple data)结构的向量处理 器在蓬勃发展的同时,也面临着如何高效利用其丰富处理资源的问题。在SIMD的向量结构上,处 理实际应用中无法被向量化运算的部分,尤其是很多非向量化的循环内部往往含有体间相关,使得 SIMD结构的丰富运算资源处于空闲状态。因此,传统的SIMD结构受限于此类应用。提出了一种变 型的向量处理器,在保持传统SIMD处理数据并行应用高效性的同时,能够高效地执行包含循环体间 数据相关的代码段。实验结果表明,它能获得2.4倍的性能加速,而仅仅占用O.97%的面积开销。 关键词:单指令流多数据流;指令级并行;数据级并行;向量处理单元 中图分类号:TP39 文献标识码:A 文章编号:1673.5692(2014)03-2964)4 A Dynamic Morphing-SIMD Processor WU Chen—xi.YANG Hui (1.School of Mathematics and Computational Science,Fuyang Teachers college,Anhui Fuyang 236037,China; 2.National University of Defense Technology,Changsha 410073,China) Abstract:In embedded application,the vector processor of single instuctrion multiple data(SIMD) structure is developing rapidly,while it is facing the problem of how to use its abundant processing re- sources efficiently.In terms of the vector structure of SIMD,real-world applications consist of more than highly parallel inner loops;many of them are non—vectorizable,because they contain loop—carried data dependencies from one iteration to the next,leaving the processing resources in idle state.Therefore,tra— ditional data parallel SIMD—architectures are limited in this kind of application.A novel dynamic nor— phing—SIMD that efficiently accelerate loop depended code segments on SIMDs is proposed.Experimental results show that it can achieve about 2.4x average performance improvement,at a cost of only 0.97% area overhead. Key words:SIMD;Instruction Level Parllaelism(ILP);Data Level Parallelism(DLP);Vector Process・ ing Element(VPE) 因为它们包含了循环的体问相关…。受限于SIMD 0 引 言 实际无线通讯和多媒体应用包含了大量结构规 整的内部循环。然而,许多循环是不能够向量化的, 的结构特征,传统SIMD结构不能有效地处理此类代 码段,因为它们没有机制来加速这类循环的数据流 图。在这种情况下,大部分的SIMD运算资源空转。 现有研究中,体系结构和编译工作者往往关注于映射 收稿日期:2014-03—18 修订日期:2014-04-26 基金项目:国家自然科学基金资助项目(61301236) 2014年第3期 吴晨曦等:一种动态的变型向量处理器 299 延迟随着VPE数量增加而增加时,这就会引发同一 个VPE上,不同循环迭代执行之间的资源被闲置。 另外,增宽单个VPE内部的功能单元数量,能够开 发更多的细粒度的指令级并行,因而也就减少了 VPE之间的中粒度的线程级并行。通过变换功能 单元和VPE的中间链接,能够在wN的配置空间中, 选择不同的SIMD链接方式。 其次,控制产生器需要存储配置SIMD链接的 配置位。每个功能单元Fu需要7位来指定操作类 型,存储单元需要1位来指定执行加载load指令或 存储store指令,因而总共需要位配置位。每个功能 单元Fu可以接受从1到 个可能源输入,因而每 个端口需要位选择位。再者,配置VPE和各个功能 单元工作在“SIMD链接执行模式”下,还是“传统 SIMD执行模式”时,需要用到1位全局控制位。因 而总共需要位的配置位。 2.4编译支持 首先,编译在程序中识别出能够映射到新结构 上执行的包含体间相关的循环。一旦编译识别出包 含体间相关的循环,就要检查硬件资源是否足够充 足以支持该循环的映射执行。如果资源不充足,那 么这个被识别出的循环就需要被分裂成一个或者多 个更小的循环,以映射到新结构上执行。其次,编译 还负责分析程序,并识别出循环体内存在的所有的 数据相关和控制相关,并判断循环的相关延迟。编 译还需增加同步指令,从而在循环结束后,将多指令 流汇聚成为单指令流。 3性能和代价评估 建立了时钟精确SIMD Anysp仿真处理器,并基 于5个具有代表性的多媒体应用和无线通讯的核心 算法,进行定量和定性的分析。首先,通过变换VPE 内部和之间的网络链接,探索不同的SIMD拓扑结构 获取的性能加速比。如变换VPE数量,配置44,48, 分别表示单个VPE的功能单元个数为4,VPE数量分 别为4个或者和8个。这些配置的性能影响,如图5 所示。可以看出88和48这两张结构的性能加速比 几乎没有不同,因此,当最大子图深度减半,增加更多 的VPE数量不会增加任何性能收益,配置8个VPE 更能够节约硬件开销。不同的拓扑结构对功耗影响 的归一化表示,如图6所示。由图6可以看出相比 配置88,配置48能够很大程度的节约功耗。 图5不同拓扑结构的性能加速比 1.02 1 0.98 0.96 0.94 O.92 O.9 0.88 O.86 图6不同的拓扑结构的对功耗影响的归一化表示 通过上述分析,选择最优最有效的配置48对 SIMD结构进行链接,并选择12个代表性的应用运行 在新结构上,所获得的性能加速比同级,如图7所示。 带有动态链的Anysp,相比非SIMD链接的Anysp,获取 平均和最大的加速比分别是2.4倍和3.5倍。在 Anysp处理器上,用Vefilog HDL完成18的链接,采用 Synopsys Design Compiler来综合,在TSMC65 nm技术 500 MHz下,总共的硬件开销约占内栊 面积的0.97%。 图7最优配置下的-陛能加速比 4 结 语 研究的目标在于加速包含体间相关的循环(de— pendency—loop)在SIMD处理器上的执行。它充分 利用现有的硬件资源,进行简单的链接,从而最小化 硬件开销,并易被简单的应用于现有的SIMD处理 器上。本文提出的机制,基于无线通讯和多媒体应 用评估算法,相较于传统SIMD结构,能够获取的性 能加速比约1.25倍到3.5倍,在TSMC65 nm技术 500 MHz下,总共的硬件开销约为0.97%。 (下转第303页) 2014年第3期 罗昌林:基于随机解调器压缩采样的宽带频谱检测方法 303 [5]QUAN Z,CUI S,SAYED A H,et a1.Optimal Muhiband 4 结 语 研究了一种基于随机解调器压缩采样的认知无 Joint Detection for Spectrum Sensing in Cognitive Radio Net— works[J].IEEE Transactions on Sinagl Processing,2O09,57 (3):1128—1140. 线电宽带频谱检i贝0方法,该方法能够在低于Nyquist 采样率的情况下对款频段进行检测,降低了ADC的 [6]DONOHO D.Compressed Sensing[J].IEEE Transactions on Information Theory,2006,52(4):1289-1306. 负担。仿真结果表明,在频谱满足稀疏的条件下,该 方法能够较准确检测各个信道的信号,完成对款频 [7]ZENG F,LI C,TIAN Z.Distributed Compressive Spec— trum Sensing in Cooperative Muhihop Cognitive Networks 段的电磁频谱普查。当噪声功率增加时,检测性能 有所降低,因此,该方法比较适合于信噪比不是太低 的情况。另外,与所有压缩采样方法一样,基于RD [J].IEEE Journal of Selected Topics in Signal Process— ing,2011,5(1):3748. [8]YEN C P,TSAI Y,WANG X.Wideband Spectrum Sens— ing Based on Sub—Nyquist Sampling[J].IEEE Transae— tions on Signal Processing,2013,61(12):3028—3040. 的宽带频谱检测方法也需要在频谱满足稀疏度要求 的情况下才适用。后续研究可以考虑绕过重构环节 [9]TROPP A,LASKA N,DUARTE F,et a1.Beyond Nyquist: Efifcient Sampling of Sparse Bandlimited Sinagls[J].IEEE Transactions on Information Theory,2010,56(1):520—544. 的检测方法,进一步降低复杂度。 参考文献: [1]SUN H,NALLANATHAN A,WANG C X,et a1.Wideband Spectrum Sensing for Cognitive Radio Networks:a Survey [1O]TROPP J,GILBERT A.Signal Recovery from Random Measurements Via Orthogonal Matching Pursuit[J].IEEE Transactions on Information Theory,2007,53(12):4655- 4666. [J].IEEE Wireless Communications,2013,20(2):74—81. [2]AXELL E,LEUs G,LARSSON E G,et a1.Spectrum Sensing for Cognitive Radio:State一0f-the—art And Recent Advances[J]. IEEE Signal Processing Magazine,2012,29(3):101—116. 作者简介 [3]FARHANG-BOROUJENY B.Filter Bank Spectum Sens—r ing ofr Cognitive Radios[Jj.IEEE Transactions on Signal Processing,2008,56(5):l801—1811. [4]TIAN Z,GIANNAKIS G.A Wavelet Approach to Wide— 罗昌林(1981~),主要研究方向为认 知无线电、信号检测: E—mail:luochanglin@1 39.corn band Spectrum Sensing for Cognitive Radios[C]//Proc. IEEE Cognitive Radio Oriented Wireless Networks and 许翔(1963一),浙江嘉兴人,副教授,主要研究方向 Communications,Mykonos Island,Greece,2006:1-5. 为无线通信、数字信号处理。 ◆lii◆iiI-*-i i14t.iiI◆lii◆…i◆lii◆ill◆…◆ii14t.Iiii◆…i◆ii1◆ii1◆iiI◆…l◆l Il◆…I4t-…I◆…【◆…◆llI◆川Il◆…l◆…4t-…◆…I◆…l4t-…◆ ◆…I◆…j◆l Il◆…1◆…l◆…◆川l4-…◆…◆…◆l Il◆I1I◆…4t-llI 4t-III{◆l (上接第299页) timization(TACO),2009,6(2):407420. 参考文献: [1]ONNY KRASHINSKY,CHRISTOPHER BAq'TEN,MARK HAMPTON.The Vector—thread Architecture[C]//Proceed— ings of the 31st Annual International Symposium on Com— puter Architecture,2004. [5]ASIKA G.,WOH M,SEO S.Mighty—morpbing Power—SIMD [C]//Proceedings of the 2010 International Conference on Compilers.Architectures and Synthesis for Embedded Systems,2010. 作者简介 吴晨曦(1991一),阜阳师范学院数 [2]OH M,SEO S,FLAUTNER K.Anysp:Anytime Anywhere Anyway Sinagl Processing【C]//Proceedings of the 36th An- nual International Symposium on Computer Architecture,20O9. 学与计算科学学院信息与计算科学专业 学生,研究方向为计算机硬件、微处理器 技术; E-mail:27931371@qq.corn [3]KAPASI U J,DALLY W J,RIXNER S.Efficient Condi— tional Operations for Data—Parallel Architectures[C]// Proceedings of the 33rd annual ACM/IEEE international symposium on Microarchitecture,2000. 杨 惠(1987一),助理研究员,国防科技大学计算机学 院电子科学与技术专业博士研究生,研究方向大规模集成电 路设计,微处理器设计。 E—mail:huihui19870124@126.corn [4]FUNG W W L,SHAM I,YUAN G.Dynamic Warp Forma— tion:Dfifcient MIMD Control Flow on SIMD Graphics Hard- ware[J].ACM Transactions on Architecture and Code Op—