欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

面向高性能sram的分級結(jié)構(gòu)的制作方法

文檔序號:6739629閱讀:250來源:國知局
專利名稱:面向高性能sram的分級結(jié)構(gòu)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種高性能SRAM內(nèi)部最優(yōu)分級的方法及其架構(gòu)。本發(fā)明可以有效實現(xiàn)SRAM關(guān)鍵路徑上第一級和第二級的總延遲近似相等,避免了延遲短板問題。另外,相比于傳統(tǒng)的架構(gòu),采用內(nèi)部字線分級架構(gòu)對于觸發(fā)器的驅(qū)動能力要求大大降低,同樣降低延遲,從而實現(xiàn)SRAM性能的最優(yōu)化。
背景技術(shù)
靜態(tài)隨機存儲器SRAM (Static Random Access Memory)是易失性存儲器(掉電后丟失,再次上電后的數(shù)據(jù)為隨機數(shù)據(jù))。它以雙穩(wěn)態(tài)電路作為存儲單元,不需要刷新電路即能保存其內(nèi)部存儲的數(shù)據(jù),而且工作速度較快,因此它是計算機系統(tǒng)中直接與CPU交換數(shù)據(jù)的器件。不管是大型機中的Cache,還是SOC中的寄存器,SRAM都是用于與CPU直接交換 數(shù)據(jù)的必不可少的部件。中低速的CPU或者DSP通常采用單周期讀取的SRAM實現(xiàn)Cache,而高速CPU和DSP工作頻率較高,單周期讀數(shù)據(jù)不易實現(xiàn)。SRAM主要由譯碼器、陣列的讀寫、時序控制,靈敏放大器等模塊組成。傳統(tǒng)結(jié)構(gòu)信號流從譯碼器、陣列讀寫到最終的輸出。由于面積效率的限制,譯碼器和陣列讀寫的延遲很難控制在200ps以內(nèi),為了達(dá)到4GHz以上工作頻率,傳統(tǒng)結(jié)構(gòu)受到限制。為了解決SRAM高頻時的性能瓶頸問題,諸多技術(shù)見諸于文獻報道。這其中具有代表性的SRAM架構(gòu)方案有 J. Pille 等人在 2008 年的論文《Implementation of the Cell BroadbandEngineer in65nm SOI Technology Featuring Dual Power Supply SRAM Arrays Supporting6GHz at
I.3V》中提出的內(nèi)部分級結(jié)構(gòu),此方式Pipeline結(jié)構(gòu)非常適合集成于Cache,吞吐量也增加了幾乎2倍。但是讀數(shù)據(jù)存在一個周期延遲,而且此分割方式直接從WLL分開,不一定是最優(yōu)的,而且第一個周期存在較大的浪費。J. Gab Joong 和 L. Moon Key 在論文《Design of a scalable pipelined RAMsystem))中首先發(fā)表的Pipeline結(jié)構(gòu),應(yīng)用于Packet switching (分組開關(guān)),將大尺寸的SRAM分塊,從而可以分別對小塊進行讀寫數(shù)據(jù),最終提高了單個SRAM快的速度,提高吞吐量。但如不連續(xù)的進行讀數(shù)據(jù),則需要等多個時鐘周期才能讀出正確數(shù)據(jù),不適合Cache應(yīng)用。大部分Intel處理器中的Cache采用多周期讀寫,從而提高了時鐘速度,但是實際吞吐量沒有提高。這是因為多個周期讀、寫相當(dāng)于時鐘分頻后控制SRAM,對于SRAM吞吐量沒有改變。本發(fā)明提出的內(nèi)部最優(yōu)分級的SRAM架構(gòu)可以有效避免上述問題并實現(xiàn)SRAM性能的最優(yōu)化。如圖3所示,字線采用分級技術(shù),在GWLL和Local WLL之間插入觸發(fā)器,從而每級都包含近似相等的寄生電容,因此不存在第二級延遲短板的問題。此實現(xiàn)方式每個觸發(fā)器僅需驅(qū)動少量的存儲單元,降低了觸發(fā)器尺寸和時鐘負(fù)載。其次,采用內(nèi)部字線分級架構(gòu),相比于傳統(tǒng)的架構(gòu),對于觸發(fā)器的驅(qū)動能力要求大大降低,同樣降低延遲
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題本發(fā)明涉及的技術(shù)問題是采用內(nèi)部分級架構(gòu)和關(guān)鍵路徑優(yōu)化實現(xiàn)高的工作頻率,解決高性能處理器中Cache的性能限制問題。本發(fā)明的技術(shù)方案為面向高性能SRAM的分級結(jié)構(gòu),采用內(nèi)部最優(yōu)分級結(jié)構(gòu),存儲陣列每一行的存儲單元Bitcell分成N級,一行存儲單元總個數(shù)為T,即每級的存儲單元個數(shù)為T/N,二進制SRAM地址數(shù)據(jù)經(jīng)過字線譯碼器模塊譯碼后,被選擇的一行全局字線GffLL升高,下一個時鐘上升沿到來時,被選擇行的內(nèi)部觸發(fā)器同時觸發(fā),該行N個模塊的Bitcell全部打開;寫操作時,具體寫入的Bitcell的位置由列選擇器模塊譯碼后決定;讀操作時最終作為輸出的具體Bitcell位置同樣取決于列選擇器模塊的譯碼結(jié)果,選中的Bitcell數(shù)據(jù)通過位線和列選擇器后輸出。所述內(nèi)部最優(yōu)分級結(jié)構(gòu)的SRAM存儲陣列為字線采用分級技術(shù),在全局字線GWLL和局部字線Local WLL之間插入觸發(fā)器,將存儲陣列分成Bitcell數(shù)目相等的N級,GWLL經(jīng)字線譯碼器模塊分級為GWLL1, GffLL2,……GWLLm共M行,存儲陣列每一行的Bitcell分成 N級,一行存儲單元的個數(shù)為T,即每級的存儲單元個數(shù)為T/N ;字線譯碼器的輸出作為存儲陣列模塊的控制輸入,讀操作時,位線數(shù)據(jù)經(jīng)譯碼選中的列選擇器模塊寫入存儲陣列模塊;寫操作時,選中的Bitcell數(shù)據(jù)通過位線和列選擇器等待下一個時鐘上升沿輸出。本發(fā)明針對SRAM工作速度問題提出了高性能SRAM架構(gòu)及關(guān)鍵路徑優(yōu)化的技術(shù)方案。字線采用分級技術(shù),在GWLL和Local WLL之間插入觸發(fā)器,將存儲陣列分成存儲單元數(shù)目相等的若干級,從而每級都包含近似相等的寄生電容,不存在第二級延遲短板的問題。另外,此實現(xiàn)方式每個觸發(fā)器僅需驅(qū)動少量的存儲單元,可以大大降低觸發(fā)器尺寸和時鐘負(fù)載。表示地址信息的二進制數(shù)據(jù)經(jīng)過字線譯碼器模塊譯碼后,相應(yīng)行所在的觸發(fā)器都快速觸發(fā),該行的Bitcell全部打開進行讀寫操作。讀操作時最終作為輸出的具體Bitcell位置取決于列選擇器模塊的譯碼結(jié)果。經(jīng)過地址譯碼,列選擇器模塊選擇相應(yīng)Bitline作為輸入,其結(jié)果進入輸出鎖存模塊等待時鐘信號控制最終輸出。有益效果本發(fā)明提出的SRAM內(nèi)部最優(yōu)分級結(jié)構(gòu),通過Bitline放電延遲合理選擇N的數(shù)目,可以實現(xiàn)第一級和第二級的總延遲近似相等,從而實現(xiàn)性能最優(yōu)。假設(shè)字線分級后每級的存儲單元個數(shù)為N,一行存儲單元總個數(shù)為T,如T=128,字線分組數(shù)N大于1,根據(jù)延遲分析模型可以得出分級數(shù)目越多,GWLL上延遲變化很小,而LWLL的延遲會大大降低。如圖5所示,當(dāng)Ν=4時,GffLL與LWLL延遲差為17. 2ps,LffLL的延遲近似為GWLL的一半。其次,采用內(nèi)部字線分級架構(gòu),相比于傳統(tǒng)的架構(gòu),對于觸發(fā)器的驅(qū)動能力要求大大降低,同樣可以大大降低延遲。


圖I為傳統(tǒng)結(jié)構(gòu)SRAM的關(guān)鍵路徑框圖。圖2為采用內(nèi)部分級的SRAM結(jié)構(gòu)框圖。圖3為本發(fā)明提出的內(nèi)部最優(yōu)分級結(jié)構(gòu)的框圖。圖4為采用內(nèi)部最優(yōu)分級結(jié)構(gòu)的SRAM存儲陣列放大示意圖。圖5為采用內(nèi)部最優(yōu)分級結(jié)構(gòu)的SRAM隨分級數(shù)目N增加,GWLL與LWLL延遲的變化示意圖。
具體實施例方式SRAM作為計算機系統(tǒng)中直接與CPU交換數(shù)據(jù)的器件,必須滿足高工作頻率,低延遲的性能要求。本發(fā)明提出的高性能SRAM架構(gòu)和關(guān)鍵路徑的優(yōu)化能夠有效降低延遲,提高工作頻率,從而實現(xiàn)SRAM性能的最優(yōu)化。SRAM主要由譯碼器、陣列的讀寫、時序控制等模塊組成。傳統(tǒng)結(jié)構(gòu)信號流從譯碼器、陣列讀寫到最終的輸出。由于面積效率的限制,譯碼器和陣列讀寫的延遲很難控制在200ps以內(nèi),為了達(dá)到4GHz以上工作頻率,傳統(tǒng)結(jié)構(gòu)受到限制。為了說明高性能SRAM架構(gòu)及關(guān)鍵路徑優(yōu)化的給SRAM性能帶來的提升,我們下面分別對傳統(tǒng)結(jié)構(gòu)SRAM、內(nèi)部分級結(jié)構(gòu)和內(nèi)部最優(yōu)分級結(jié)構(gòu)進行分析和比較。如圖I所不是傳統(tǒng)結(jié)構(gòu)SRAM的關(guān)鍵路徑不意圖。傳統(tǒng)結(jié)構(gòu)SRAM的關(guān)鍵路徑由輸入鎖存11、譯碼器12、字線驅(qū)動13、存儲單元14、靈敏放大器15和輸出驅(qū)動16構(gòu)成。二進制SRAM地址數(shù)據(jù)作為輸入,進入輸入鎖存模塊11。輸入鎖存模塊11的輸出經(jīng)兩級譯碼器模塊12被譯碼為2n位數(shù)據(jù)信息。信號經(jīng)字線驅(qū)動模塊13,通過字線WLL進入存儲陣列14。譯碼后的信息選取相應(yīng)的行進行讀寫操作,結(jié)果經(jīng)位線到達(dá)已經(jīng)打開的列選擇器模塊15,再經(jīng)靈敏放大器模塊16放大,放大后的結(jié)果最后進入輸出驅(qū)動模塊17等待時鐘信號控制輸出。由于面積效率,通常譯碼器、字線驅(qū)動和Bitline上寄生較大,降低Bitline上存儲單元個數(shù)會提高性能,但是由于所需的容量越來越大,因此此方法不是非常有用。如圖2所示為IBM提出的內(nèi)部分級的結(jié)構(gòu)框圖,該結(jié)構(gòu)在字線驅(qū)動模塊和存儲陣列之間加入觸發(fā)器,將SRAM關(guān)鍵路徑分成兩級,從而性能可以大幅度提升,理想情況下可以提高2倍。同傳統(tǒng)結(jié)構(gòu)的框圖相似,地址信息作為輸入,首先進入輸入鎖存模塊21,經(jīng)時鐘控制信號地址信息進入兩級譯碼器模塊22,分別進行行列地址的譯碼,信號作為字線驅(qū)動模塊23的輸入,觸發(fā)器模塊24被觸發(fā),經(jīng)過譯碼相應(yīng)行所在的存儲單元Bitcell全部打·開進行讀寫操作,讀寫結(jié)果經(jīng)被選中的列地址選擇器26通過位線Bitline到達(dá)靈敏放大器模塊27。靈敏放大器模塊27將讀寫結(jié)果放大,放大結(jié)果作為輸出驅(qū)動模塊28的輸入,等待時鐘信號控制輸出。內(nèi)部分級技術(shù)雖然可以較大幅度地提升SRAM的性能,但是該技術(shù)存在著較大的延遲第一級主要是譯碼器延遲,字線驅(qū)動負(fù)載為觸發(fā)器,因此僅包含一個大的寄生電容;而第二級需要驅(qū)動字線和位線,存在兩個大寄生電容,因此第二級延遲決定了工作的最大速度,存在延遲短板。另外,觸發(fā)器輸出需要驅(qū)動大的字線負(fù)載,因此對于觸發(fā)器設(shè)計比較困難,時鐘負(fù)載也增加,同樣增加了額外的延遲。圖3即是本發(fā)明提出的內(nèi)部最優(yōu)分級結(jié)構(gòu)的框圖。字線采用分級技術(shù),在GWLL和Local WLL之間插入觸發(fā)器,將存儲陣列分成存儲單元Bitcell數(shù)目相等的若干級,從而每級都包含近似相等的寄生電容,因此不存在第二級延遲短板的問題。此實現(xiàn)方式每個觸發(fā)器僅需驅(qū)動少量的存儲單元,可以大大降低觸發(fā)器尺寸和時鐘負(fù)載。二進制SRAM地址數(shù)據(jù)首先進入輸入鎖存模塊31,輸出經(jīng)兩級譯碼器模塊32進行行列地址譯碼,使相應(yīng)的行列打開。字線驅(qū)動模塊33驅(qū)動GWLL,經(jīng)過譯碼的信號進入內(nèi)部最優(yōu)分級的存儲陣列模塊34,存儲陣列模塊34內(nèi)的觸發(fā)器被快速觸發(fā),相應(yīng)行所在的存儲單元Bitcell全部打開。寫操作時,具體寫入的Bitcell的位置由列選擇器模塊35譯碼后決定。讀操作時,最終作為輸出的具體Bitcell位置同樣取決于列選擇器模塊35的譯碼結(jié)果。經(jīng)過地址譯碼,列選擇器模塊35選擇相應(yīng)位線作為輸入,其輸出作為靈敏放大器模塊36的輸入。靈敏放大器模塊36將讀數(shù)據(jù)放大后,結(jié)果進入輸出驅(qū)動模塊37,等待時鐘信號控制輸出。圖4是采用內(nèi)部最優(yōu)分級結(jié)構(gòu)的SRAM存儲陣列放大后的示意圖。如圖所示,采用內(nèi)部最優(yōu)分級結(jié)構(gòu)后,GWLL經(jīng)字線譯碼器模塊41分級為GWLL1, GWLL2,……GWLLm共M行,采用內(nèi)部最優(yōu)分級結(jié)構(gòu)后將存儲陣列每一行的Bitcell分成N級,一行Bitcell總個數(shù)為
T,即每級的Bitcell個數(shù)為T/N。分級后的模塊411,421,......4MN結(jié)構(gòu)上完全一致的。二
進制SRAM地址數(shù)據(jù)經(jīng)過字線譯碼器模塊41譯碼后,被選擇的一行GWLL升高,下一個時鐘上升沿到來時,被選擇行的內(nèi)部觸發(fā)器同時觸發(fā),該行N個模塊的Bitcell全部打開。寫操作時,具體寫入的Bitcell的位置由列選擇器模塊42……4N譯碼后決定。讀操作時最終作
為輸出的具體Bitcell位置也取決于列選擇器模塊42......4N的譯碼結(jié)果,選中的Bitcell 數(shù)據(jù)通過位線和列選擇器42……4N后輸出。圖5為采用內(nèi)部最優(yōu)分級結(jié)構(gòu)的SRAM隨分級數(shù)目N增加,GWLL與LWLL延遲的變化示意圖。如T=128,字線分組數(shù)N大于1,根據(jù)延遲分析模型可以得出分級數(shù)目越多,GWLL上延遲變化很小,而LWLL的延遲會大大降低,當(dāng)Ν=4時,GWLL與LWLL延遲差為17. 2ps, LffLL的延遲近似為GWLL的一半。因此采用字線內(nèi)部分級架構(gòu),通過位線Bi11 ine放電延遲合理選擇N的數(shù)目,可以實現(xiàn)第一級和第二級的總延遲近似相等,從而實現(xiàn)性能最優(yōu)。其次,采用內(nèi)部字線分級架構(gòu),相比于傳統(tǒng)的架構(gòu),對于觸發(fā)器的驅(qū)動能力要求大大降低,同樣可以有效降低延遲。綜上所述,本發(fā)明架構(gòu)下的SRAM能夠在高速下穩(wěn)定工作,滿足高速CPU和DSP較高工作頻率的要求。這主要得益于內(nèi)部最優(yōu)分級結(jié)構(gòu)的如下優(yōu)勢(1)無延遲短板通過Bitline放電延遲合理選擇分級N的數(shù)目,可以使第一級和第二級的總延遲近似相等,從而實現(xiàn)性能最優(yōu),避免了延遲短板問題;(2)觸發(fā)器設(shè)計簡單SRAM存儲陣列內(nèi)部最優(yōu)分級后,每一級觸發(fā)器需要驅(qū)動的存儲單元Bitcell數(shù)目大大減小,可以大幅降低觸發(fā)器尺寸和時鐘負(fù)載的要求,避免了觸發(fā)器因高驅(qū)動要求帶來的設(shè)計困難,從而可以有效降低延遲。以上所述僅為本發(fā)明的一個較佳實施例,凡根據(jù)本發(fā)明權(quán)利要求所做的均等變化與修飾,皆應(yīng)屬于本發(fā)明發(fā)明的涵蓋范圍。
權(quán)利要求
1.面向高性能SRAM的分級結(jié)構(gòu),其特征是采用內(nèi)部最優(yōu)分級結(jié)構(gòu),存儲陣列每一行的存儲單元Bitcell分成N級,一行存儲單元總個數(shù)為T,即每級的存儲單元個數(shù)為T/N,二進制SRAM地址數(shù)據(jù)經(jīng)過字線譯碼器模塊(41)譯碼后,被選擇的一行全局字線GWLL升高,下一個時鐘上升沿到來時,被選擇行的內(nèi)部觸發(fā)器同時觸發(fā),該行N個模塊的Bitcell全部打開;寫操作時,具體寫入的Bitcell的位置由列選擇器模塊譯碼后決定;讀操作時最終作為輸出的具體Bitcell位置同樣取決于列選擇器模塊的譯碼結(jié)果,選中的Bitcell數(shù)據(jù)通過位線和列選擇器后輸出。
2.根據(jù)權(quán)利要求I所述的面向高性能SRAM的分級結(jié)構(gòu),其特征是所述內(nèi)部最優(yōu)分級結(jié)構(gòu)的SRAM存儲陣列為字線采用分級技術(shù),在全局字線GWLL和局部字線LocalWLL之間插入觸發(fā)器,將存儲陣列分成Bitcell數(shù)目相等的N級,GffLL經(jīng)字線譯碼器模塊(41)分級為GWLL1, GWLL2,……GWLLm共M行,存儲陣列每一行的Bitcell分成N級,一行存儲單元的個數(shù)為T,即每級的存儲單元個數(shù)為T/N ;字線譯碼器(41)的輸出作為存儲陣列模塊的控制輸入,讀操作時,位線數(shù)據(jù)經(jīng)譯碼選中的列選擇器模塊(42)……(4N)寫入存儲陣列模塊;寫操作時,選中的Bitcell數(shù)據(jù)通過位線和列選擇器(42)……(4N)等待下一個時鐘上升沿輸出。
全文摘要
面向高性能SRAM的分級結(jié)構(gòu),字線采用分級技術(shù),在全局字線GWLL和局部字線之間插入觸發(fā)器,將存儲陣列分成存儲單元Bitcell數(shù)目相等的N級,GWLL經(jīng)字線譯碼器模塊分級為M行,一行Bitcell的個數(shù)為T,即每級的Bitcell個數(shù)為T/N,分級后的模塊結(jié)構(gòu)上完全一致,二進制SRAM地址數(shù)據(jù)經(jīng)過字線譯碼器模塊譯碼后,被選擇的一行GWLL升高,下一個時鐘上升沿到來時,被選擇行的內(nèi)部觸發(fā)器同時觸發(fā),該行N個模塊的Bitcell全部打開;寫操作時,具體寫入的Bitcell的位置由列選擇器模塊譯碼后決定,讀操作時最終作為輸出的具體Bitcell位置同樣取決于列選擇器模塊的譯碼結(jié)果,選中的Bitcell數(shù)據(jù)通過位線和列選擇器后輸出。
文檔編號G11C11/413GK102915760SQ201210322289
公開日2013年2月6日 申請日期2012年9月2日 優(yōu)先權(quán)日2012年9月2日
發(fā)明者柏娜, 張鈿鈿, 朱賈峰, 馮越, 陳銘 申請人:江蘇東大集成電路系統(tǒng)工程技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
务川| 罗甸县| 盐池县| 巴中市| 湾仔区| 澄江县| 绥阳县| 龙泉市| 北流市| 蓬莱市| 三都| 祁门县| 海南省| 嘉义市| 黔东| 留坝县| 岐山县| 宁化县| 荥经县| 邹城市| 清丰县| 穆棱市| 策勒县| 赤水市| 泽库县| 东台市| 新竹县| 临西县| 凤山县| 新密市| 理塘县| 五华县| 县级市| 南开区| 泾川县| 台东县| 司法| 长沙市| 广河县| 安陆市| 营口市|