大发888游戏平台下载-博客市网站-亚洲太阳开户送98元-正规皇冠投注网

科研動(dòng)態(tài)

機(jī)器學(xué)習(xí)和GPU加速晶體管級(jí)電路仿真中的稀疏線(xiàn)性求解器:綜述論文

中文題目:機(jī)器學(xué)習(xí)和GPU加速晶體管級(jí)電路仿真中的稀疏線(xiàn)性求解器:綜述論文

論文題目:Machine learning and GPU accelerated sparse linear solvers for transistor-level circuit simulation: a perspective survey (Invited paper)

錄用期刊/會(huì)議:29th Asia and South Pacific Design Automation Conference (CCF-C)

原文DOI:10.1109/ASP-DAC58780.2024.10473846

原文鏈接:https://doi.org/10.1109/ASP-DAC58780.2024.10473846

作者列表

1) 金   洲
中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系教師

2) 李文豪 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院 計(jì)算機(jī)技術(shù) 碩22

3) 柏一諾 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院 電子信息工程 本19

4) 王騰程 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院 計(jì)算機(jī)技術(shù) 碩21

5) 魯一澄 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院 電子信息工程 本19

6) 劉偉峰 中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系教師

背景與動(dòng)機(jī):

SPICE電路仿真中求解稀疏線(xiàn)性系統(tǒng)不僅占據(jù)了大部分的仿真時(shí)間,電路尺寸的快速增加也進(jìn)一步加劇了稀疏線(xiàn)性求解器需要更多的執(zhí)行時(shí)間和內(nèi)存資源。因此,高性能稀疏線(xiàn)性求解器成為加速電路仿真和驗(yàn)證的關(guān)鍵。近年來(lái),AI技術(shù)的蓬勃發(fā)展和硬件能力的不斷增強(qiáng)為加速稀疏線(xiàn)性求解提供了新的機(jī)會(huì)。本文提供了對(duì)這些技術(shù)進(jìn)步的總覽,同時(shí)也探討了目前面對(duì)的挑戰(zhàn)和未來(lái)機(jī)遇。

主要內(nèi)容:

在稀疏LU分解的預(yù)處理階段采用不同的行列重排序方法會(huì)對(duì)性能有不同的影響(如圖1)。對(duì)此,Ganqu Cui等人結(jié)合支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)提出了一種基于A(yíng)I來(lái)分析并選擇最佳重排序方案的算法。但目前所有現(xiàn)有的基于A(yíng)I的策略通常都是從現(xiàn)有方法中的選擇最佳替代方案。利用半監(jiān)督或無(wú)監(jiān)督學(xué)習(xí)為矩陣生成特定的最優(yōu)重排序方法在未來(lái)是非常有前途的方向。

電路仿真矩陣采用不同重排序方法的性能比較


在稀疏LU分解的數(shù)值分解階段采用不同類(lèi)型的矩陣乘法也會(huì)產(chǎn)生不同的性能(如圖2)。TengCheng Wang提出了一種配備隨機(jī)森林的密度感知自適應(yīng)矩陣乘法以對(duì)不同的子矩陣塊選擇性能最優(yōu)的矩陣乘法,來(lái)加速稀疏LU分解。

不同階電路矩陣上GEMMSpMM的比較


利用GPU加速計(jì)算內(nèi)核方面,Piyush Sao等人開(kāi)發(fā)了一種將小型密集BLAS操作聚合為一個(gè)較大操作的策略(如圖3)。Xu Fu等人在其開(kāi)發(fā)的求解器PanguLU中使用規(guī)則的2D分塊策略,將其與決策樹(shù)相結(jié)合后將部分內(nèi)核放在GPU上實(shí)現(xiàn)相對(duì)加速。然而,結(jié)合矩陣特征來(lái)實(shí)現(xiàn)進(jìn)一步的加速仍然具有挑戰(zhàn)性。



3 GPU加速計(jì)算內(nèi)核的方法


利用GPU加速任務(wù)調(diào)度方面,Jianqi Zhao等人在GPU上提出SFLU利用無(wú)同步通信策略來(lái)充分利用GPU資源(如圖4)。但當(dāng)矩陣尺寸較小或列之間存在較強(qiáng)依賴(lài)性時(shí),如何有效地將計(jì)算和調(diào)度策略結(jié)合起來(lái),充分利用GPU的算力仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題。

4 SFLU算法示例


利用分布式異構(gòu)平臺(tái)進(jìn)行加速方面,Patrick R. Amestoy等人開(kāi)發(fā)的求解器MUMPS利用異步通信和動(dòng)態(tài)任務(wù)調(diào)度在Multifrontal方法中進(jìn)行加速。Xu Fu等人在異構(gòu)分布式平臺(tái)上提出的PanguLU利用多種分塊稀疏BLAS方法來(lái)提高GPU的效率、利用無(wú)同步通信策略降低總體延遲成本。

實(shí)驗(yàn)結(jié)果及分析:

表1展示了幾種稀疏直接法解法器并在圖5中對(duì)其數(shù)值分解的性能進(jìn)行了對(duì)比。當(dāng)矩陣規(guī)模、矩陣列之間的依賴(lài)關(guān)系、計(jì)算平臺(tái)不同時(shí),這些求解器的性能優(yōu)劣關(guān)系都會(huì)產(chǎn)生變化。因此結(jié)合矩陣特征并充分利用計(jì)算平臺(tái)來(lái)進(jìn)一步優(yōu)化LU分解是一個(gè)巨大的挑戰(zhàn)。


表1 幾種稀疏直接求解器總覽




不同解法器的數(shù)值分解時(shí)間對(duì)比


我們進(jìn)一步對(duì)比了在32節(jié)點(diǎn)128GPU分布式集群上SuperLU_DIST和PanguLU(如圖6)。雖然分布式方法具有并行加速的潛力,但由此產(chǎn)生的開(kāi)銷(xiāo)仍不可忽略,利用具有異構(gòu)處理器的大規(guī)模超級(jí)計(jì)算機(jī)提高可擴(kuò)展性以及降低具有不規(guī)則稀疏結(jié)構(gòu)依賴(lài)性的進(jìn)程之間的同步和通信成本仍然是一個(gè)巨大的挑戰(zhàn)。



6 SuperLU_DISTPanguLU128個(gè)A100GPU上的性能對(duì)比

通訊作者簡(jiǎn)介:

金洲,中國(guó)石油大學(xué)(北京)信息科學(xué)與工程學(xué)院./人工智能學(xué)院計(jì)算機(jī)系副教授,入選北京市科協(xié)青年人才托舉工程、校青年拔尖人才。主要從事集成電路設(shè)計(jì)自動(dòng)化(EDA)、面向科學(xué)計(jì)算的DSA軟硬件協(xié)同設(shè)計(jì)等方面的研究工作。主持并參與國(guó)家自然科學(xué)基金青年項(xiàng)目、重點(diǎn)項(xiàng)目,科技部重點(diǎn)研發(fā)微納電子專(zhuān)項(xiàng)、高性能計(jì)算專(zhuān)項(xiàng)青年科學(xué)家項(xiàng)目,國(guó)家重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題、企業(yè)橫向課題等。在DAC、TCAD、TODAES、SC、PPoPP、IPDPS、TCAS-II、ASP-DAC等重要國(guó)際會(huì)議和期刊上發(fā)表40余篇高水平學(xué)術(shù)論文。

聯(lián)系方式:[email protected]