您的当前位置:首页正文

基于CUDA的汇流分析并行算法的研究与实现

2021-01-02 来源:客趣旅游网
第27卷第7期2010年7月计算机应用研究ApplicationResearchofComputersV01.27No.7Jul.2010基于CUDA的汇流分析并行算法的研究与实现木赵向辉L2,苗青L2,付忠良1’2,苏畅1’2,李昕1’2(1.中国科学院成都计算机应用研究所,成都610041;2.中国科学院研究生院,北京100049)摘要:针对基于数字高程模型(DEM)生成流域等流时线的快速运算问题,提出了一种基于统一设备计算架构(CUDA)平台同时可发挥图形处理器(GPU)并行运算特性的;12流分析的快速并行算法。采用改进后的归并排序算法进行数据排序及新的内存分配策略和改进的并行算法进行汇流分析。用该并行算法和CPU上的串行算法,对生成基于DEM的等流时线运算时间和矩阵乘法运算时间进行分析验证。实验结果袁明,基于CUDA的汇流分析并行算法能提高系统的计算效率,具有较好的效果。关键词:并行计算;图形处理器;统一设备计算架构;汇流分析;数字高程模型中图分类号:’鹏91;TP301.6文献标志码:A文章编号:1001.3695(20lo)07.2445.03doi:10.3969/j.issn.100l-3695.2010.07.01lResearchandrealizationinparallelalgorithmofconfluenceanalysisbasedZHAOXiang-huil”,MIAOonCUDAt2Qin91”,FUZhong-lian91”,SUChan91”。LIXinl(I.ChengduInstituteofComputerApplications,ChineseAcademy矿Sciences,Chengdu610041,Ch/na;2.GraduateSchool,ChineseAcademyofSc/ences,&群,lg100049,∞讹)atAbstract:Aimingthefastparallelacomputingofgeneratingisochronesofwatershedsthatbasedbasedonondistalelevationmodel(DEM),thispaperproposedfastparallelalgorithmofconfluenceanalysiscomputeunifieddevicearchitecture(CUDA)platformthatcouldUSeparallelcomputingofgraphicprocessingunit(GPU).Carrieddatasortingoutbyusingtheimprovedmergesortingalgorithm,adoptedthenewmemoryallocationstrategy,carriedconfluenceanalysisoutbyusingtheim—provedparallelcomputingalgorithm.UsingthepresentedparallelalgorithmandtheserialalgorithmbasedOOCPUtoanalyzeandverifythetimeconsumedwhengeneratingisochronesofwatershedsbasedonDEMandexecutingmatrixmultiplication.Theexperimentsresultsillustratethatthisparallelalgorithmofconnuenceanalysisbasedtionalefficiencyofthesystemandhaveabettereffect.Keywords:parallelcomputing;graphicanalysis;digitalelevationonCUDAcanimprovethecomputa-proce昭ingunit(GPU);computeunifieddevicearchitecture(CUBA);.confluencemodel(DEM)CUDA是NVIDIA公司提供的GPU用于通用计算的开发环境,是一个全新的软硬件架构,可以将GPU视为一个并行数据计算的设备,对进行的计算进行分配和管理。图形显示卡,尤其是高端的显卡,现在几乎是单机必配的重要硬件。其核心部件GPU采用SIMD体系结构,大量的计算部件使得它很适合处理高数据量的并行运算01.-3J。基于CUDA平台,利用GPU强大的并行处理能力来加速通用科学计算及普通应用程序是非常好的应用趋势,已经成功应用到诸如金融风险管理、媒体图像以及科学研究‘41等领域。本文结合科研项目“基于3S技术的自然灾害智能预测平台的研发与应用”中相关的关键信息技术来开展基于CUDA的汇流分析并行算法的研究与实现。在自然灾害的山洪汇流分析中,项目中要绘制的等流时线是基于DEM高程图绘制的”’6j。若采用传统的基于CPU的串行算法,高分辨率的DEM图在带来更好的计算效果的同时,也大大地增加了计算量,使得计算时间大幅度增加,降低了计算效率。例如作为四收稿日期:2009一ll一26;修回日期:2010—01—04川省试点地区的彭州甘溪沟流域,其流域面积11.1km2,沟道长度为6.83km,若使用80m作为单位栅格边长来划分流域,则流域呵被划分为I805个有效栅格单位,若采用高精度的划分方法,以20m作为栅格边长来划分流域,则流域被划分为28900个有效栅格,在能获得更高精度DEM图的情况下,栅格的数量会更大。这样,在获得更精确结果的同时,大大牺牲了运算效率。传统的方法难以满足高数据最的计算需求,本文算法的计算核心是矩阵相乘计算,需要花费大量的时间,GPU在计算矩阵相乘时,比CPU要快得多,因此可巧妙地利用基于CUDA平台的GPU强大的并行处理能力来加速计算速度"’8o。本文提出了一种基于CUDA平台可发挥GPU并行运算特性的快速并行算法。1CUDA并行计算的引入CUDA表示统一计算设备架构,使GPU能够解决复杂的计算问题。它是一个并行编程模型和~个软件编程环境,它主基金项目:四川省科技支撑计划基金资助项目(2008SZ0100,2009SZ0214)作者简介:赵向辉(1982・),男,河南长蔫人,博士研究生,主要研究方向为机器学习、数据挖掘、模式识别、图像分析等(xi肿glluizhao@hotmail.㈣);苗青(1982-),男,四川成都人,博士研究生。主要研宄方向为图形图像处理、机器学习、模式识别等;付忠良(1967.),男,重庆人,研究员,博导.主-Jt-榭"向为机器学习、机器视觉、模式识别、图形图像处理等;苏畅(1983一),男,安徽淮南人。助理研究员,硕士,主要研究方向为机器学习、虚拟仿真、图形图像处理等;李昕(1985一),男,胰西汉中人,硕士研究生。主要研究方向为机器学习、虚拟仿真i图形图像处理等.万方数据・2446・计算机应用研究第27卷要是为了帮助广大的程序员来更好地开发平滑扩展的并行程序。当前主流GPU产品在浮点运算性能上都超过了1TFIops【9j,而Intei公司最新的四核处理器Core2i7也仅达到70GFlops[1引。CUDA模型中,GPU相当于CPU的协处理器,它能并行执行非常多的线程,处理大规模的并行运算。整体来说,GPU芯片类似于流处理器,适合一次进行大量相同的工作;CPU则比较有弹性,能同时处理变化较多的工作"o。图l表明,GPU具备了超高的计算能力,在多个处理核心和高存储器带宽的配合下,最新的GPU成为了图形和非图形处理的超强工具。CUDA的软件堆栈…1采取如图2所示的多层组成方式,以此实现高性能计算。它允许定义一种叫kernel的函数扩展,当一个kemel函数被调用时,会有,v个不同的CUDA线程在GPU中并行地执行相同的程序,并行执行的线程数量用扩展的“<(()))”来指定。例如FunetionOnGPU(((4,256>))(…),该函数一旦成功调用,便共有4×256=1024个独立的并行线程来执行该函数的内容。其中4为块(block)的数量,256为每块内的线程(thread)的数量。l000—◆一NVIDIAGPUC,T200善750—●卜-IntelGPUg500Nv∞1竖√潲眺}-t250,艘兰辈』!璺1W兰V-71/娄_鱼当32GPm,z0L—●L——二————————二!—————--———=:—————————————————————————-————・—一”JanJunAprJu.M”NovMayJun20032004200520()620072008GT200=C,eForeeGTX280G71=C,eFo佗e7900GTXNV35=GeFow.eFX5950UltraC92=GeForcP9800GTXC70=GeForce7800GTXNV30=GeForceFX5800C踟b=GeF‘毗七8800GTXMV40=C.eForce6800Ultra图lCPU和GPU的每秒浮点运算次数图2CUDA软件堆栈2基于DEM的流域等流时线绘制算法为了解决山洪灾害预测问题。通过建立山洪形成过程的数学模型。实现对山洪预测的数值模拟。等流时线是一种经典的流域汇流曲线¨J,根据对基于数字高程模型的流域等流时线绘制算法的描述¨2‘,在整个计算和绘制的过程中,主要经过五个大步骤的计算:a)对DEM图作填洼处理;b)根据高程对栅格进行排序;C)判断栅格水流方向;d)计算单个栅格汇流时间;e)计算流域汇流时间。其中:步骤a)填洼处理可以由GIS软件,本文使用SupermapDeskpm2008软件来完成;步骤b)对栅格按高程排序,一般排序算法的复杂度为O(nlog2“),对于大量元素的排序,较为耗费系统计算资源;步骤C)判断栅格水流方向,需要与栅格周围的八个栅格进行比较;步骤d)计算单个栅格汇流时间;步骤e)从DEM值最小的栅格开始计算流域汇流时间。若采用传统的基于CPU的串行算法,这些运算都需要对栅格进行多次的遍历,在栅格划分较多的高精度DEM图上,就会成为整个算法的瓶颈。观察分析以上几步可发现,在栅格运算的过程中,排序可以使用优化的并行排序算法来提高效率,步骤C)和d)的运算,由于其栅格之间的相关性很低,计算水流方向时,只需要考万方数据虑与之相关的八个栅格;计算单个栅格的汇流时同时几乎是独立运算。这两步运算符合SIMD(singleinstructionmultipleda-ta,单指令多数据流)指令系统,宜于利用并行运算将其实现。按照规格网格法,把系统所需的DEM图表示成高程矩阵,在计算机中以二维矩阵的方式存放。流域外的空白地区的高程值被设为一999。所以对DEM图的操作,实际上就是对高程矩阵的运算。CPU的流式指令体系结构在提高矩阵运算速度上有着很大的限制。GPU(图形处理器)采用单指令多数据流体系结构,大量的计算部件使得它很适合处理矩阵运算。因此,本文将以上几步的算法进行优化,使其适合并行计算,并基于CUDA平台利用GPU的通用计算功能,使用改进的并行算法在单机上进行并行实现,最大化利用电脑硬件的计算能力。3基于CUDA汇流分析的并行算法3.1算法实现流程本文使用改进后的归并排序算法对栅格进行排序。将第2章中介绍的相关算法进行优化,使其适合并行计算。该算法在GPU上的具体实现(以四川彭州甘溪沟流域的DEM图为例来对上述算法并行部分进行验证),主要流程如下:8)将DEM转换为高程矩阵。b)使用改进后的归并排序算法,按照高程值对栅格进行排序。对高程矩阵按照数据量将数据分块并排序,将结果送至共享内存并分配空间,同步线程后,对奇偶块进行Merge运算。C)计算栅格水流方向和经流时间id)绘制等流时线进行汇流展示。3.2算法及其应用分析3.2.1按照高程值对栅格进行排序加利福尼亚州大学的Satish等人¨3J提出了一种在CUDA上进行归并排序的算法,并提出通过预先抽取数据采样,对待排序序列根据采样值进行分块来提高归并算法中Merge运算的效率。同时,采样以256个待排元素为间隔,来保证划分出的每个子块最多含有256个元素。这样使在Merge运算时划分出的子块能够快速地在GPU上基于其共享内存来运算。在计算等流时线前需要对栅格进行排序,以获得高程值最低的栅格作为整个流域汇流的出口。在排序算法中,由于多路归并排序,将数据分组排序后再合并,适合并行计算,在此处使用改进后的归并排序。首先将DEM对应的高程矩阵看做一维数组,然后按照数据量将数据分成k个块,每块分别送进CU.DA的一个block,使用bitonie对其进行排序,最后将结果送至共享内存中,同步线程后,对奇偶块进行merge运算。从国内外已有的研究来看。排序运算元素之间并不能达到高的独立运算,元素之间仍有一定的相关性,并行时加速比不是很高。因此,并行排序运算虽然有一定的效率提高,但并不是整个运算加速的重点。假设高程矩阵是一个m×n的矩阵,根据汇流分析的相关知识,求取栅格水流方向,只需计算该栅格与相邻的八个栅格的距离权落差,在计算单个栅格的流经时间时,需要使用公式:缸=,讧/[K(s‘)‘](1)式中各个参数的意义请参见文献[12],只有参数si与该栅格的流向栅格有关,这两个运算之间的相关性很高,可以在一个3.2.2计算栅格水流方向和经流时间第7期赵向辉,等:基于CUDA的汇流分析并行算法的研究与实现・2447・运算过程中完成。在这两个运算过程中,栅格与栅格之间的相关度较低,可以方便地实现高并行运算。1)高程矩阵的分块和CUDA中内存的分配该算法的整个并行计算过程中,尽量降低内存带宽的使用是提高性能的重要方式。而该算法的特点决定了即使是并行计算,在计算过程中仍可能存在重复读取的现象。例如,分块时把栅格A分入block(0,0)中运算,但是栅格A的相邻栅格B可能在分块时被分入block(0,1)中计算,这样A和B栅格就会在运算的过程中被重复地读取。为提高并行算法在GPU上的效率,如何分块尤为重要。为了防止在计算过程中对内存的反复读取,所以分块时,将需要参与计算的元素全部分入一个block中。例如需要block(0,1)计算☆×k个栅格的流向,就以这^×k的矩阵为中心,向四周相邻的方向各多取一个元素,即取以这个矩阵为中心的(k+2)×(k+2)阶矩阵。这样在计算该|i}×矗个栅格时将需要的所有元素完全加载到存取速度很快的共享内存中来,在计算的过程中,该部分栅格的运算就不需要再存取任何外部的内存。针对绘制等流时线的运算,需要创建三个与运算栅格相同大小的辅助矩阵,即流向矩阵、坡度矩阵和单位栅格流经时间矩阵。如果想取得更高的运算速度,最好能将这三个矩阵都存放在存取速度较快的共享内存中。同时,在CUDA平台上,一个线程块最大只支持512个线程,而且根据内存节距对齐的原则,GPU的内存控制器从某个固定倍数的地址开始读取才会有最高的效率¨…。根据其支持的线程数,最好的办法就是将高程矩阵分解为14×14的小矩阵,这样,每次共享内存中就会加载16×16阶的矩阵,并在共享内存创建三个14×14阶的辅助矩阵。为了方便进行线程块的计算,针对高程矩阵,可为每个线程块分配14×14个线程,再建立(m/14)×(n/14)个线程块。这就充分利用了GPU多线程的特点,从而大大地提高运算速度。当然,分解高程矩阵时,有可能小矩阵块是边沿矩阵块,这就需要在分解时对小矩阵块作出是否是边界元素的判断,如果是边界元素,就需要用一999作为值填充在空白的相邻栅格的位置,创建出16×16阶的矩阵。由于参加运算的高程矩阵的阶很可能不是16的倍数,为了使GPU更有效率地工作,在开始运算前为分解的分块小矩阵开辟内存空间时,就直接把内存大小配置成16的倍数,并在复制矩阵到显卡内存之前将其清零。这充分利用了GPU的内存读取特点,且符合GPU内存读取高效率的原则。使用CU-DA提供的cudaMallocPitch()函数就可以满足该要求,用于提高共享内存的访问速度¨“。分配空间的伪代码如下:#d硪neBLOCKSIZE16●…●●intBlock—llUrn=((n+(BLOCK—SIZE一1)一1)/(BLOCK—SIZE-1))‘(BLOCK—SIZE・1):eudaMallocPitch((void“)&demc,&pitch—dem,sized(float)’Block—Hum.Block—num);eudaMallocPitch((void“)&dim&pitch—dir,sizeof(float)‘Block—hum,Block—hum);eudaMallocPitch((void“)&SrⅢtc,&pitch—grad,8i∞of(float)‘Block—num,Block—num);cudaMallocPitch((void“)&timee,&pitch—time,8i/%of(float)‘Block_hum,Block_hum);eudaMemset(demc,0,pitchdem’Bloek_num);2)运算核函数万方数据有了上述的高程矩阵分块方法和内存分配机制,真正需要在GPU上执行的核函数的伪代码如下:—西obalstaticvoidgenDLSX(eonstfloat。dern,size_tlddem,constfloat+dir,size—tIdir,float’訇md,size—tldFad。float’time,size—tldtime,jmn){分配共享内存空间DEM[BLOCKSIZE][BLOCK—SIZE];将该线程孺汁算的分块矩阵的对应行列载入共享内存对应的位置;synthreads();//线程同步,确保各个线程需要数据完全装载在共享内存中;for(inti=l;i<BLOCK-sIZE-2:i++)//只计算中间的14×14阶矩阵{计算出水流方向表,依据栅格水流方向.将其写入dir矩阵中;根据水流方向,计算出水流方向的长度和坡度的比值,放入矩阵grad中;依据式(1),计算出单个栅格的汇流时间,存入time矩阵;}synthreads();//线程同步,确保以七各个线程计算均完成;将结果写入DIR和TIME矩阵对应的位置;}4实验分析实验平台为2.60GHz的IntelE5300双核处理器,2GB内存,Windows7×64操作系统。GPU为NVIDIAGeForce%00GT,显存256MB,使用2.2版本的CUDAtoolkit及对应SDK。编程环境为Vjs脚Studio2008。考虑到传统的计算方法难以满足高数据量的计算需求,本文算法的计算核心是矩阵相乘计算,需要花费大量的时间,GPU在计算矩阵相乘时,比CPU要快得多。因此,本文采用改进后的归并排序算法进行数据排序及新的内存分配策略和改进的并行算法进行汇流分析,可巧妙地利用基于CUDA平台的GPU强大的并行处理能力来加速计算速度。实验以四川彭州甘溪沟流域的DEM图为例,对上述算法并行部分进行验证(参与运算的数据类型均定义为float类型)。彭州甘溪沟流域DEM图采用16位GRID数据集,划分为2511×2550个栅格,计算机中表达为二维矩阵形式。其中最大值为4810.0000,最小值为0.0000,空白边界值为一9999。实验结果如表l所示。由于数据量仅达到百万级的运算量,且其中包含加速效果不明显的排序运算,速度的提升不是很明显,仅达到4倍多。借助GPU强大的并行计算能力,如果数据量进一步增多,将会大大提高运算速度。实验运算过程中的方阵相乘使用CUDA运算的实验数据如表2所示。若矩阵阶数较小,由于GPU运算必须经过PCI—E总线传输及显存分配等必要耗时,加速比不明显;若矩阵阶数较大,如在本实验条件下,矩阵阶数达到450,加速比就开始增大。实验结果表明,基于CUDA的并行算法比采用CPU上的串行算法具有更好的计算能力,能提高系统计算效率。表1生成基于DEM的等流时线的运算时间比较mSCPU卜串行算法基于CUDA的并行算法3207650表2矩阵乘法运算时间比较咖黯嚣是辙警加速比阶教串行算法并行算法“8“阶数串行算法并行算法…8“10(541无700657102X6.44100<1043无10001880232】(8.104508479X1.062000153081386x11.04(下转第2451页)第7期细精度地刻画了信念的形成。刘冬宁,等:智能主体的信念认知时态子结构逻辑模型forintention396.402.of・2451・agent[J].JournalofSoftware,2006,17(3):在B婀,系统中讨论R。和月。关系时,本文主要讨论了它们的必然算子。即田和口。对于曰和口的对偶算子◇和◇在本文中并没有讨论,不讨论其的主要原因在于◇和◇算子不是信念形成的关键,同时也对愿望和意图不起关键作用。因此,在下一步工作中的研究重点在于,如何将尺。扩充为动作和动态关系,如将算子曰扩充为[n]或[a]“,又如何进一步在子结构演算中丰富R。关系,使其进一步具有线性、序列性、非分支性和有穷间隔性等性质。同时,还可以通过添加相应的表示将来状态的算子“■”.由相关领域的研究人员形成相应的愿望、意图和BDI模型,并最后付诸领域应用。参考文献:【1]吏忠植.智能主体及其应用[M].北京:科学出版社,2000:12・22.[2]MOORERC.Aformaltheoryofknowledgeandaction[M]//FormalTheoriesoftheperation。lCommonsense[8】KONOLIGEK,POLLACKME.Arepresentationalisttheoryoftion[C]//Proc【9]SINGHMofinten-LICM’93.1993:390.395.systems:aP.Muhiagenttheoreticalframeworkforinten-dons,know—how,andcommunications[C]//LectureNotesinArtificialIntelligence.[S.1.]:Springer,1994.[10]NAIRVCP.OnextendingBDIlogics[D].Queensland:GriffithUrd・versity,2003.[11]RAFAELHB,MEHDID,JI)RGEND,eta/.Multi-agentprogram-ruing:languages,platformsandapplications[M].Berlin:[8.n.],2005.[12]RAFAELHB,MICHAELF,WILLEMpmgramsbymodelandMulti—AgentV,etof.Verifyingmulti—agentchecking【J].JournalofAutonomousAgentsWorld.[S.1.]:AblexPublishingCot-Systems,2006,12(2):239—256.muhi—agent985:319—358。[13]RAFAELHHB,JOMIFH,MICHAELW.Programming[3]COHENPR,LEVESQUEJ.IntentionischoicewithcommitmentsystemsinAgentSpeakusingJason【M]//[S.1.]:Wiley,2007.[J].ArtificialIntelligence,1990,42(2-3):213—261.[4JRAOAS,GEORGEFFMP.DeliberationNotes1991.【14]RESTALLG.Anintroductiontosubstructurallogics[M].Roufledge,Tokyo:MathematicAlSocietyofandintentions,TechnicalJapan,2000.in10[R].[S.1.]:AustralianArtificialIntelligenceInstitute,[15]ONOH.Proof-theoreticmethods207.254.nonclassicallogics[R】.1998:[5]JIAOWen-ping,SHIZhong—zIIi.Formalizingpolyadic霄一calculus[C]//Procsoningofagent’8onattitudeswiththe4thWorkshop[16]刘冬宁.时态信息处理中若干问题的逻辑公理化研究[R].广州:PracticAlRea-andRationality.Stockholm:[s.n.],1999:21・27.中山大学,2009.[17]CAMILO.T.TheBDI[6]胡山立,石纯一.Agent意图的双子集语义改进模型[J].软件学报。2006,17(3):396-402.[7】HUShall—li,SHIChun-yi.Animprovedtwin—subsetsemanticmodelofagencyandBDIlogics[R].2005.【18]BULLINGN.Modallogicsforgames,time,andbeliefs[D】.[s.1.]:modelChusthalUniversityofTechnology,2006.(上接第2447页)parallelcoprocessor[R].Toronto:UniversityofTomnlo,2008.[5]詹道江,叶守泽.工程水文学[M].北京:中国水利水电出版社,5结束语本文算法能提高系统的计算效率,具有较好的效果。实验表明,对相同的数据,通过比较分析生成基于DEM的等流时线的运算时间和矩阵乘法的运算时间,GPU比CPU的计算处理速度要快很多。基于CUDA平台可在一台主机上运行多个GPU,通过CPU的线程来管理多个GPU,或建立GPU集群,使其计算性能得到更大的提升。可以将基于CUDA的汇流分析的并行算法的设计思想应用于涉及到需求转换后能应用快速并行计算的各种项目系统中,以提高系统的计算效率。本文的算法设计思想和相关技术解决方法,为相关功能的实现提出了新的思路和解决办法,将对构建模型化、定量化、直观现代的新型自然灾害监测预警分析系统等提供重要的借鉴与参考。参考文献:[1】吴恩华.图形处理器用于通用计算技术、现状及其挑战[J],软件学报,2004,15(10):1493—1540.2000:96.[6]熊立华,彭定志.基于高程模型的等流时线推求与应用[J].武汉大学学报:工学版,2003,36(3):1-3.[7】KRISHNANM,NIEPLOCHAJ.SRUMMA:amatrixmultiplicationAl-memorysystemsgurithmsuitableforclustersandsealableshared[c]//Pmcofthe18thInternationalParallelandDistributedProces-singSymposium.WashingtonDC:IEEEComputerSociety,2004.[8]NVIDIA.CUDAprogrammngguide[z].2009.[9]NVIDIAofficialsite[EB/OL].(2009).hap://www.nvidia.cent/.[10]Intelofficialsite[EB/OL】.(2009).hup://www.intel.tom/.[1I]NVIDIA.NVIDACUDAcomputeunifieddevicearchitecturereferencemanual[EB/OL].[2008-08・20].http://www.nvidia.corn/object/cuds/cuda_develop.htnd.[12]杜尚海,吏超,王晶晶.基于数字高程模型的小流域等流时线绘制方法及应用[j].中国环境管理,2006,6(论文专辑):44-45.[13]SATISHN,HARRISM。GARLANDM.Designingefficientsortingal-gurithmsformanycoreGPUs[EB/OL】.[2008—09-15.].http://mgar-land.org/files/papers/nvr-2008・001.pdf.[2]张舒,褚艳利.GPU高性能运算之CUDA【M].北京:中国水利水电出版杜.2009.[3]GOTILIEDA,HWANGK,SAHNIS.Specialposeprocessingissueon[14]LEFOHNA,KNISSJ,OWENSJ.ImplementingefficientparalleldatastructuresonGPUs[C】//ProcofGPUGraphicsgems2:TechniquesforHishgeneral—pur-PerformanceandGeneralPurpo∞Computation.Boston,MA:usinggraphicsprocessingunits【J].JoumalofParal-Addison-Wesley。2005:512-545.lelandDistdbutedComputing,2008,68(10):1305・1402.ona[15]苏畅。付忠良。谭雨展.一种在GPU上高精度大型矩阵快速运算data[4]LESSIGC.AnimplementationoftheMRRRAlgorithm的实现[J】.计算机应用,2009.29(4):1177-1179.万方数据

因篇幅问题不能全部显示,请点此查看更多更全内容