本發(fā)明涉及集成電路領域,更確切地說,涉及可編程門陣列。
背景技術:
::可編程門陣列屬于半定制集成電路,即通過后端工藝或現(xiàn)場編程,實現(xiàn)對邏輯電路的定制化。美國專利4,870,302披露了一種可編程門陣列。它含有多個可編程邏輯單元(configurablelogicelement,或configurablelogicblock)和可編程連接(configurableinterconnect,或programmableinterconnect)。其中,可編程邏輯單元在設置信號控制下可以選擇性地實現(xiàn)移位、邏輯非、and(邏輯與)、or(邏輯和)、nor(和非)、nand(與非)、xor(異或)、+(算術加)、-(算術減)等功能;可編程連接在設置信號控制下可以選擇性地實現(xiàn)兩條互連線之間的連接、斷開等功能。目前,很多應用均涉及復雜數(shù)學函數(shù)的計算。復雜數(shù)學函數(shù)的例子包括超越函數(shù),如指數(shù)(exp)、對數(shù)(log)、三角函數(shù)(sina、cos)等。為了保證執(zhí)行速度,高性能應用要求用硬件來實現(xiàn)復雜數(shù)學函數(shù)。在現(xiàn)有的可編程門陣列中,復雜數(shù)學函數(shù)均通過來固化計算單元來實現(xiàn)。這些固化計算單元為硬核(hardblock)的一部分,其電路已經(jīng)固化、不能對其進行再配置。很明顯,固化計算單元將限制可編程門陣列的進一步應用。為了克服這個困難,本發(fā)明將可編程門電路的概念推廣,使固化計算單元可編程化。具體說來,可編程門電路除了含有可編程邏輯單元以外,還含有可編程計算單元。該可編程計算單元可以選擇性地實現(xiàn)多種數(shù)學函數(shù)中的任何一種。技術實現(xiàn)要素:本發(fā)明的主要目的是推廣可編程門電路在復雜數(shù)學計算領域的應用。本發(fā)明的另一目的是提供一種可編程門電路,不僅其邏輯功能可以被定制,其計算功能也可以被定制。本發(fā)明的另一目的是提供一種計算能力更靈活、更強大的可編程門陣列。本發(fā)明的另一目的是提供一種芯片面積更小、成本更低的可編程門陣列。為了實現(xiàn)這些以及別的目的,本發(fā)明提出一種基于三維印錄存儲器(three-dimensionalprintedmemory,簡稱為3d-p)的可編程門陣列。它含有一可編程計算單元陣列、一個可編程邏輯單元陣列和多個可編程連接。每個可編程計算單元含有多個3d-p陣列,這些3d-p陣列存儲一基本數(shù)學函數(shù)庫的查找表(lut)。每個計算單元還含有多個可編程連接。通過這些可編程連接可以從相應的lut中查出所需函數(shù)的值。在本發(fā)明中,復雜數(shù)學函數(shù)是指算術加(+)和算術減(-)以外的數(shù)學函數(shù),包括指數(shù)、對數(shù)、三角函數(shù)等。對于高性能可編程計算單元來說,3d-p尤其適合存儲lut。3d-p是三維存儲器(3d-m)的一種,其存儲的信息是在工廠生產(chǎn)過程中采用采用印刷方式錄入的(印錄法,如光刻、納米壓印等手段)錄入的。這些信息永久固定,出廠后不能改變。由于3d-p存儲元不需要實現(xiàn)電編程,它可以比三維可寫存儲器(three-dimensionalwritablememory,簡稱為3d-w)承受更大的讀電壓和讀電流。因此,3d-p的讀速度遠快于3d-w。除了可編程計算單元,可編程門陣列還含有多個可編程邏輯單元和可編程連接。在實現(xiàn)過程中,復雜數(shù)學函數(shù)首先被分解為多個基本數(shù)學函數(shù)。然后針對每個基本數(shù)學函數(shù)設置對應的可編程計算單元,使其實現(xiàn)相應的基本數(shù)學函數(shù)。最后,通過設置可編程邏輯單元和可編程連接,實現(xiàn)所需的復雜數(shù)學函數(shù)。采用3d-p來實現(xiàn)可編程計算單元有諸多優(yōu)勢:首先,3d-p比3d-w的讀速度快,可實現(xiàn)高性能計算單元;其次,不同基本數(shù)學函數(shù)所需的3d-p陣列大小均相同或相差整數(shù)倍。代表不同基本數(shù)學函數(shù)的3d-p陣列可放置在不同存儲層中,并通過三維堆疊集成到同一3d-m模塊中。這能極大地減少可編程計算單元所占的襯底面積。最后,由于3d-p陣列基本不占襯底面積,可編程邏輯單元和/或可編程連接可以集成在3d-p陣列下方,這樣可以進一步減少可編程計算單元所占的襯底面積。相應地,本發(fā)明提出一種擇性地實現(xiàn)第一或第二數(shù)學函數(shù)的可編程計算單元(100),其特征在于含有:一含有晶體管的半導體襯底(0);堆疊在該半導體襯底(0)上的第一和第二三維印錄存儲器(3d-p)陣列(110,120),該第一3d-p陣列(110)存儲該第一數(shù)學函數(shù)的至少部分查找表(luta),該第二3d-p陣列(120)存儲該第二數(shù)學函數(shù)的至少部分查找表(lutb);至少一與該第一和第二3d-p陣列耦合的可編程連接(150或160),基于該可編程連接的設置信號(125),該可編程計算單元(200)選擇性地實現(xiàn)該第一或第二數(shù)學函數(shù)。本發(fā)明還提出一種實現(xiàn)一復雜數(shù)學函數(shù)的可編程門陣列(400),其特征在于含有:一含有至少一可編程計算單元的可編程計算單元陣列(100aa-100ad),該可編程計算單元從一基本數(shù)學函數(shù)庫中選擇性地實現(xiàn)一種基本數(shù)學函數(shù);一含有至少一可編程邏輯單元的可編程邏輯單元陣列(200aa-200ad),該可編程邏輯單元從一邏輯運算庫中選擇性地實現(xiàn)一種邏輯運算;多個將該可編程計算單元陣列和該可編程邏輯單元陣列耦合的可編程連接(300);該可編程門陣列(400)通過對該可編程計算單元(100aa-100ad)、該可編程邏輯單元(200aa-200ad)和該可編程連接(300)進行編程以實現(xiàn)該復雜數(shù)學函數(shù),該復雜數(shù)學函數(shù)是所述基本數(shù)學函數(shù)的一種組合。附圖說明圖1是一種三維印錄存儲器(3d-p)的截面圖。圖2是一種可編程計算單元的符號。圖3是一種可編程計算單元的電路框圖,該圖同時披露了該可編程計算單元實現(xiàn)的基本數(shù)學函數(shù)庫。圖4是該可編程計算單元的第一種實現(xiàn)方式,該圖為其襯底電路布局圖。圖5a-圖5b是該可編程計算單元的第二種實現(xiàn)方式,圖5a為其截面圖;圖5b為其襯底電路布局圖。圖6是一種可編程門陣列的布局圖。圖7a披露一種可編程連接實現(xiàn)的連接庫;圖7b披露一種可編程邏輯單元實現(xiàn)的邏輯運算庫。圖8表示該可編程計算單元的第三種實現(xiàn)方式,該圖為其襯底電路布局圖。圖9是一種可編程門陣列具體實現(xiàn)的布局圖。注意到,這些附圖僅是概要圖,它們不按比例繪圖。為了顯眼和方便起見,圖中的部分尺寸和結構可能做了放大或縮小。在不同實施例中,相同的符號一般表示對應或類似的結構。具體實施方式圖1是一種三維印錄存儲器(3d-p)10的截面圖。3d-p是三維存儲器(3d-m)的一種,其存儲的信息是在工廠生產(chǎn)過程中采用印刷方式錄入的(印錄法)。這些信息是永久固定的,出廠后不能改變。印錄法可以是光刻(photo-lithography)、納米壓印法(nano-imprint)、電子束掃描曝光(e-beamlithography)、duv掃描曝光、激光掃描曝光(laserprogramming)等。通過光刻法錄入數(shù)據(jù)的3d-m又被稱為三維掩膜編程只讀存儲器(3d-mprom),這是一種常見的3d-m。3d-p10含有一形成在襯底0上的襯底電路層0k。存儲層16a堆疊在襯底電路0k之上,存儲層16b堆疊在存儲層16a之上。襯底電路層0k含有存儲層16a、16b的周邊電路,它包括晶體管0t及其互連線0i(包括0m1-0m2)。其中,晶體管0t形成在一半導體襯底0中;互連線0i含有互連線層0m1-0m3。每個存儲層(如16a)含有多條第一地址線(如2a,沿y方向)、多條第二地址線(如1a,沿x方向)和多個3d-p存儲元(如1aa)。存儲層16a、16b分別通過接觸通道孔1av、3av與襯底0耦合。在一個3d-p中,每個存儲層含有多個3d-p陣列。3d-p陣列是在一個存儲層中所有共享了至少一條地址線的存儲元的集合。在一個3d-p陣列中,所有地址線是連續(xù)的,并不與不同3d-p陣列共享任何地址線。另外,一個3d-p芯片含有多個3d-p模塊。每個3d-p模塊包括3d-p中的所有存儲層,其頂存儲層僅含一個3d-p陣列,而且該3d-p陣列在襯底上的投影決定3d-p模塊的邊界。3d-p含有至少兩種存儲元1aa、2aa。存儲元含有一個二極管14。二極管14具有如下的廣義特征:在讀電壓下,其電阻較?。划斖饧与妷盒∮谧x電壓或者與讀電壓方向相反時,其電阻較大。二極管膜可以是p-i-n二極管,也可以是金屬氧化物(如tio2)二極管等。存儲元2aa是一種低阻存儲元;存儲元1aa是一種高阻存儲元。高阻存儲元1aa比低阻存儲元2aa多含有一層高阻膜12。作為一個簡單的例子,高阻膜12可以是一層二氧化硅膜。該高阻膜12在工藝流程中利用印錄法在存儲元2aa處被物理移除。由于存儲的數(shù)據(jù)在工藝過程中錄入,且之后不能改變,3d-p不需要支持電編程。與之比較,三維可寫存儲器(three-dimensionalwritablememory,簡稱為3d-w)需要支持電編程。由于讀電壓/讀電流不能超過編程電壓/編程電流,3d-w所能承受的讀電壓/讀電流均小于3d-p。由于3d-w的讀速度遠低于3d-p,3d-p更適合高性能計算。圖2是一種可編程計算單元100的符號。其輸入端in包括輸入數(shù)據(jù)115,輸出端out包括輸出數(shù)據(jù)135,設置端cfg包括設置信號125。在設置信號125的控制下,該可編程計算單元100從一基本數(shù)學函數(shù)庫中選擇所需的基本數(shù)學函數(shù)。圖3是一種可編程計算單元100的電路框圖,該圖同時披露了該可編程計算單元100能實現(xiàn)的基本數(shù)學函數(shù)庫。它含有第一和第二可編程連接150、160、以及存儲一基本數(shù)學函數(shù)庫的luta-d。在本實施例中,第一可編程連接150是一1到4的demux,第二可編程連接160是一4到1的mux,該基本數(shù)學函數(shù)庫包括對數(shù)log()、指數(shù)exp()、對數(shù)正弦log[sin()]和對數(shù)余弦log[cos()]。luta存儲對數(shù)表log()、lutb存儲指數(shù)表exp()、lutc存儲對數(shù)正弦表log[sin()]、lutd存儲對數(shù)余弦表log[cos()]。比如說,為了實現(xiàn)函數(shù)exp(),第一可編程連接150將輸入數(shù)據(jù)115送到相應的lutb作為地址?;谶@個地址進行查表,即讀出lutb中的值(exp())。然后第二可編程連接160將從該值送到輸出作為輸出數(shù)據(jù)135。對于熟悉本領域的專業(yè)人士來說,一基本數(shù)學函數(shù)庫可以含有更多的基本數(shù)學函數(shù)。比較說,它可以含有八種基本數(shù)學函數(shù),包括log()、exp()、sin()、cos()、sqrt()、cbrt()、tan()、atan()。當然,其它多種組合也是可行的。圖4表示可編程計算單元100的第一種實現(xiàn)方式,這是其襯底電路0k之布局圖。由于3d-p陣列堆疊在襯底電路0k上方,不在襯底0中,因此只用虛線表示3d-p陣列在襯底0上的投影。在該實施例中,每個lut存儲在一3d-p陣列中:luta存儲在3d-p陣列110中,lutb存儲在3d-p陣列120中,lutc存儲在3d-p陣列130中,lutd存儲在3d-p陣列140中。這些3d-p陣列110-140并肩排列。襯底電路0k包括可編程連接150、160以及各個3d-p陣列110-140的周邊電路:如3d-p陣列110的x解碼器15a和y解碼器(包括讀出電路)17a等。為了減少可編程計算單元100所占的襯底面積,本發(fā)明充分三維堆疊的特性,將存儲不同基本數(shù)學函數(shù)的3d-p陣列堆疊在一起。圖5a-圖5b表示可編程計算單元100的第二種實現(xiàn)方式。在圖5a的截面圖中,存儲函數(shù)log()之luta的3d-p陣列110堆疊在襯底電路0k上方(+z方向),存儲函數(shù)exp()之lutb的3d-p陣列120堆疊在3d-p陣列110上方(+z方向),存儲函數(shù)log[sin()]之lutc的3d-p陣列130堆疊在3d-p陣列120上方(+z方向),存儲函數(shù)log[cos()]之lutd的3d-p陣列140堆疊在3d-p陣列130上方(+z方向)。從圖5b的襯底電路布局圖可以看得更清楚,該實施例中的存儲luta的3d-p陣列110、存儲lutb的3d-p陣列120、存儲lutc的3d-p陣列130、存儲lutd的3d-p陣列140在襯底0上的投影是重疊的,它們所占的襯底總面積只是圖4中實施例的1/4。同時,z解碼器19起可編程連接150、160的作用。圖6表示一種可編程門陣列400。它含有規(guī)則排列的可編程模塊400a和可編程模塊400b等。每個可編程模塊(如400a)含有多個可編程計算單元(如100aa-100ad)和可編程邏輯單元(如200aa-200ad)。在可編程計算單元(如100aa-100ad)和可編程邏輯單元(如200aa-200ad)之間含有可編程信道320、340;在可編程模塊400a和可編程模塊400b之間,也含有可編程信道310、330、350??删幊绦诺?10-350含有多個可編程連接300。對于熟悉本領域的專業(yè)人士來說,除了可編程信道以外,還可以采用門海(sea-of-gates)等設計。圖7a披露一種可編程連接300能實現(xiàn)的連接庫。該可編程連接300與美國專利4,870,302中披露的可編程連接類似。它采用下述連接庫的一種連接方式:a)互連線302/304相連,互連線306/308相連,但302/304與306/308不相連;b)互連線302/304/306/308均相連;c)互連線306/308相連,互連線302、304不相連,也不與306/308相連;d)互連線302/304相連,互連線306、306不相連,也不與302/304相連;e)互連線302、304、306、306均不相連。在本說明書中,兩條互連線之間的符號“/”表示該兩條互連線相連,兩條互連線之間的符號“、”表示該兩條互連線不相連。圖7b披露一種可編程邏輯單元200能實現(xiàn)的邏輯運算庫。其輸入a和b為輸入數(shù)據(jù)210、220,輸出c為輸出數(shù)據(jù)230。該可編程邏輯單元200與美國專利4,870,302中披露的可編程邏輯單元類似。它可以實現(xiàn)下述邏輯運算庫中的至少一種:c=a、a邏輯非、a移位、and(a,b)、or(a,b)、nand(a,b)、nor(a,b)、xor(a,b)、算術加a+b、算術減a-b等。可編程邏輯單元200還可以含有寄存器、觸發(fā)器等時序電路元件,以實習流水線等操作。圖8表示可編程計算單元100的第三種實現(xiàn)方式。由于3d-p陣列110-140均不占襯底面積,因此可編程邏輯單元200可以集成到3d-p陣列110-140下方,并被3d-p陣列110-140至少部分覆蓋。除此之外,還可以將可編程連接集成到3d-p陣列110-140下方,并被3d-p陣列110-140至少部分覆蓋。所有這些措施都可以進一步減少可編程門陣列400的芯片面積。圖9是一種可編程門陣列400的具體實現(xiàn),它用于實現(xiàn)一復雜數(shù)學函數(shù):e=a.sin(b)+c.cos(d)。在可編程信道310-350中可編程連接300采用圖7a中的表示方式:交叉點有圓點的可編程連接表示交叉線相連,交叉點無圓點的可編程連接表示交叉線不相連,斷開的可編程連接表示斷開的互連線被分為兩個互不相連的互連線段。在該實施例中,可編程計算單元100aa被設置為log(),其計算結果log(a)被送到可編程邏輯單元200aa的第一輸入??删幊逃嬎銌卧?00ab被設置為log[sin()],其計算結果log[sin(b)]被送到可編程邏輯單元200aa的第二輸入??删幊踢壿媶卧?00aa被設置為“算術加”,其計算結果log(a)+log[sin(b)]被送到可編程計算單元100ba。可編程計算單元100ba被設置為exp(),其計算結果exp{log(a)+log[sin(b)]}=a.sin(b)被送到可編程邏輯單元200ba的第一輸入。類似地,通過適當?shù)脑O置,可編程計算單元100ac、100ad、可編程邏輯單元200ac、可編程計算單元100bc的結果c.cos(d)被送到可編程邏輯單元200ba的第二輸入??删幊踢壿媶卧?00ba被設置為“算術加”,a.sin(b)和c.cos(d)在此相加,最終結果送到輸出e。很明顯,通過改變設置,可編程門陣列400還可以實現(xiàn)其它復雜數(shù)學函數(shù)。本說明書均以現(xiàn)場編程門陣列(fpga)為例。在fpga中,晶圓將完成所有工序(包括所有可編程計算單元、可編程邏輯單元和可編程連接)。在編程現(xiàn)場,可通過設置可編程連接來定義fpga的功能。上述fpga的例子可以很容易地推廣到傳統(tǒng)的可編程門陣列。在傳統(tǒng)可編程門陣列中,晶圓僅半完工,即晶圓生產(chǎn)僅完成可編程計算單元和可編程邏輯單元,但未完成可編程連接。當芯片的功能確定后,可編程信道310-350通過后端工藝來定制。應該了解,在不遠離本發(fā)明的精神和范圍的前提下,可以對本發(fā)明的形式和細節(jié)進行改動,這并不妨礙它們應用本發(fā)明的精神。因此,除了根據(jù)附加的權利要求書的精神,本發(fā)明不應受到任何限制。當前第1頁12當前第1頁12