對(duì)載明并行和依賴運(yùn)算的指令矩陣進(jìn)行處理的裝置和方法
【專利摘要】執(zhí)行塊的矩陣形成多行和多列。多行支持指令的并行執(zhí)行,多列支持依賴指令的執(zhí)行。執(zhí)行塊矩陣處理載明并行指令和依賴指令的單個(gè)指令塊。
【專利說(shuō)明】對(duì)載明并行和依賴運(yùn)算的指令矩陣進(jìn)行處理的裝置和方法
本申請(qǐng)是2008年11月12日進(jìn)入中國(guó)國(guó)家階段的國(guó)家申請(qǐng)?zhí)枮?00780017317.4的PCT國(guó)際申請(qǐng)(國(guó)際申請(qǐng)日為2007年4月12日并且國(guó)際申請(qǐng)?zhí)枮镻CT/US2007/066536)的分案申請(qǐng),這里以引用的方式結(jié)合該申請(qǐng)的全部?jī)?nèi)容。
【技術(shù)領(lǐng)域】
[0001]本發(fā)明主要涉及計(jì)算機(jī)體系結(jié)構(gòu)。更具體地,本發(fā)明涉及一種用于處理指定并行運(yùn)算和依賴運(yùn)算的矩陣指令的計(jì)算機(jī)體系結(jié)構(gòu)。
【背景技術(shù)】
[0002]改善計(jì)算機(jī)體系結(jié)構(gòu)性能是一個(gè)很困難的任務(wù)。已經(jīng)通過(guò)頻率變標(biāo)(frequencyscaling)、單指令多數(shù)據(jù)(SMD)、超長(zhǎng)指令字(VLIW)、多線程和多處理器技術(shù)來(lái)尋求上述的性能改善。這些方法著重于改善程序執(zhí)行的吞吐量。上述技術(shù)中的很大一部分要求軟件顯式(explicitly)地呈現(xiàn)出并行性。與此不同的是,頻率變標(biāo)在改善吞吐量和延遲的同時(shí)無(wú)需軟件顯式地標(biāo)記并行性。近來(lái),頻率變標(biāo)面臨著功耗壁壘(power wall)問(wèn)題,所以很難通過(guò)頻率變標(biāo)進(jìn)行改進(jìn)。因此,除非表示出大規(guī)模的顯式軟件并行(explicit softwareparallelization),否則很難增加吞吐量。
[0003]鑒于上述問(wèn)題,人們期望在不依賴于頻率變標(biāo)和大規(guī)模的顯式軟件并行的前提下改善計(jì)算機(jī)體系結(jié)構(gòu)的性能。
【發(fā)明內(nèi)容】
[0004]執(zhí)行塊矩陣形成多行和多列。多行支持指令的并行執(zhí)行,而多列支持依賴指令的執(zhí)行。執(zhí)行塊矩陣處理載明并行指令和依賴指令的單個(gè)指令矩陣。
【專利附圖】
【附圖說(shuō)明】
[0005]參考詳細(xì)說(shuō)明并結(jié)合附圖,本發(fā)明將得到更完整地闡釋,在附圖中:
[0006]圖1表示按照本發(fā)明實(shí)施例的支持執(zhí)行并行指令和依賴指令的體系結(jié)構(gòu);
[0007]圖2A表示映射串行指令以在本發(fā)明的執(zhí)行矩陣中產(chǎn)生并行和依賴運(yùn)算;
[0008]圖2B表示對(duì)本發(fā)明執(zhí)行矩陣進(jìn)行的運(yùn)算映射;
[0009]圖3表示按照本發(fā)明實(shí)施例可能用到的一行執(zhí)行塊;
[0010]圖4A表示按照本發(fā)明實(shí)施例可能用到的執(zhí)行塊和支持寄存器文件及緩沖器;
[0011]圖4B表示按照本發(fā)明實(shí)施例配置的寄存器文件;
[0012]圖5表示可用于本發(fā)明緩沖器的各種數(shù)據(jù)結(jié)構(gòu);
[0013]圖6表示按照本發(fā)明實(shí)施例可使用的流水線;
[0014]圖7表示按照本發(fā)明實(shí)施例的矩陣指令處理;
[0015]圖8表示對(duì)本發(fā)明執(zhí)行塊進(jìn)行運(yùn)算映射;
[0016]圖9表示按照本發(fā)明實(shí)施例使用的矩陣緩沖器;[0017]圖1OA表示實(shí)現(xiàn)本發(fā)明運(yùn)算的通用單元;
[0018]圖1OB表示用于圖1OA中4位加法器的超前進(jìn)位加法器的I個(gè)位單元;
[0019]圖11表示按照本發(fā)明實(shí)施例配置的延時(shí)切片體系結(jié)構(gòu)(TLSA)單元;
[0020]圖12表示按照本發(fā)明實(shí)施例的交錯(cuò)結(jié)構(gòu)中的多個(gè)TLSA單元;
[0021]圖13表示現(xiàn)有的乘法運(yùn)算技術(shù);
[0022]圖14表示按照本發(fā)明實(shí)施例采用的延時(shí)乘法運(yùn)算技術(shù);
[0023]圖15表示現(xiàn)有的布斯編碼乘法;
[0024]圖16表示實(shí)現(xiàn)圖15的布斯編碼乘法的邏輯;
[0025]圖17表示按照本發(fā)明實(shí)施例的布斯編碼乘法;
[0026]圖18表示實(shí)現(xiàn)圖17的布斯編碼乘法的邏輯;
[0027]圖19表示按照本發(fā)明實(shí)施例配置的存儲(chǔ)器/寄存器文件數(shù)據(jù)塊;
[0028]圖20表示按照本發(fā)明實(shí)施例配置的時(shí)間切片存儲(chǔ)器;
[0029]圖21表示按照本發(fā)明實(shí)施例配置帶有轉(zhuǎn)置/移位單元的TLSA體系結(jié)構(gòu);
[0030]圖22表示按照本發(fā)明實(shí)施例配置的浮點(diǎn)乘累加單元。
在所有附圖中,相似的附圖標(biāo)記指代對(duì)應(yīng)的部分。
【具體實(shí)施方式】
[0031]允許非顯式并行軟件在單處理器硬件上執(zhí)行是非常有益處的,這種單處理器硬件能夠在短的延遲流水線(latency pipeline)中處理大量指令。當(dāng)前解決方案的現(xiàn)有觀點(diǎn)為;超標(biāo)量處理器可以在峰值瞬間的一個(gè)周期內(nèi)實(shí)際處理4-5條指令,這類似于好的VLIW編譯器在峰值瞬間實(shí)現(xiàn)的處理量。人們已經(jīng)認(rèn)識(shí)到實(shí)際上無(wú)法實(shí)現(xiàn)超標(biāo)量處理器在單個(gè)周期/瞬間內(nèi)調(diào)度10條指令。類似地,如果編譯器嘗試并行處理用于帶有10個(gè)時(shí)隙的VLIW體系結(jié)構(gòu)的通用程序,則會(huì)導(dǎo)致留下大量未填充的時(shí)隙。
[0032]本發(fā)明提供的體系結(jié)構(gòu)和處理器實(shí)現(xiàn)了在短的流水線中高度并行地讀數(shù)、調(diào)度、解碼和執(zhí)行多條指令,極大地改善了執(zhí)行吞吐量,同時(shí)保持了單處理器流水線運(yùn)算的更優(yōu)化的延遲,并具有高效的分時(shí)、功率、面積和路徑。
[0033]在這個(gè)被稱為超大指令矩陣(Ultra Large Instruction Matrix, ULIM)的新體系結(jié)構(gòu)中,固定大小的指令矩陣模板被調(diào)度為作為并行和依賴指令組的矩陣在硬件中執(zhí)行。與使用超長(zhǎng)指令寬度模板僅對(duì)并行指令進(jìn)行調(diào)度的VLIW不同,ULIM體系結(jié)構(gòu)的模板封裝了并行指令和依賴指令的指令組。這可以被看作二維模板矩陣,其中橫向分配并行指令,同時(shí)僅縱向分配依賴指令。這個(gè)模板以一個(gè)指令矩陣的形式被發(fā)送到執(zhí)行硬件,其中各個(gè)執(zhí)行塊處理一個(gè)指令矩陣。
[0034]圖1表示這種模板,其中,如果將一個(gè)指令放入時(shí)隙101,那么另一個(gè)可與其并行執(zhí)行的指令可放入與其處于同一行的并行時(shí)隙I到N中的任何一個(gè)中。然而,與設(shè)置在時(shí)隙101中的指令相依賴的指令不能被放入相同的行,而是必須放入隨后的行102(例如,串行時(shí)隙I的并行時(shí)隙O)。標(biāo)記為102的時(shí)隙接收101產(chǎn)生的結(jié)果、或外部輸入操作數(shù)、或這二者的結(jié)合作為輸入。這種指令模板的執(zhí)行模型是任意行的指令都在下一行的指令執(zhí)行之前執(zhí)行。
[0035]ULIM指令組可由ULIM編譯器靜態(tài)調(diào)度,或者由ULIM硬件組成單元?jiǎng)討B(tài)調(diào)度。如果與傳統(tǒng)體系結(jié)構(gòu)進(jìn)行比較,那么這種體系結(jié)構(gòu)的意義則非常明顯。在傳統(tǒng)體系結(jié)構(gòu)中,單行&并行指令可放進(jìn)一個(gè)例如VLIW或SMD模板的模板中。這意味著每個(gè)周期都可以執(zhí)行N1個(gè)指令(全部指令都必須保證是并行的,這對(duì)于很大的N而言是非常嚴(yán)格的約束)。另一方面,通過(guò)在每個(gè)行邊界的流水線執(zhí)行,ULIM體系結(jié)構(gòu)在每個(gè)周期可執(zhí)行&*隊(duì)個(gè)指令。盡管每個(gè)中周期執(zhí)行NfN2個(gè)指令,ULIM體系結(jié)構(gòu)僅有如下的相同約束:確保并行執(zhí)行N1個(gè)指令。
[0036]指令矩陣模板可由編程器或編譯器/硬件格式程序構(gòu)建,其中二者都不需要被限制成僅找到并行指令以調(diào)度每個(gè)周期。有效的并行指令可以被提取出來(lái)并且按行橫向設(shè)置。通過(guò)在后續(xù)行中設(shè)置依賴指令,可以增加并行指令。矩陣可以在單個(gè)或多個(gè)周期內(nèi)執(zhí)行。矩陣可以本地化存儲(chǔ)接近執(zhí)行硬件的操作數(shù),從而優(yōu)化相互關(guān)聯(lián)的復(fù)雜度、面積、速度和功率。
[0037]參考圖2A的實(shí)例,本發(fā)明得到更完整的說(shuō)明。圖2A表示由單個(gè)串行程序流表示的指令序列200的實(shí)例。該圖也表示如何對(duì)指令分組,從而形成在矩陣模板中采用的兼有串行時(shí)隙和并行時(shí)隙的單指令矩陣。矩陣模板被用于執(zhí)行塊201。執(zhí)行塊201包括乘法單元202、浮點(diǎn)加法單元204、加載單元206、乘累加(multiple accumulate, MAC)單元208、邏輯單元(例如ALU) 210和另一個(gè)邏輯單元212。
[0038]因此,指令矩陣引用是指并行和串行指令的指令組模板。執(zhí)行塊是指執(zhí)行指令矩陣的執(zhí)行單元組。執(zhí)行單元是執(zhí)行塊內(nèi)部單獨(dú)的計(jì)算單元(例如,復(fù)雜單元和簡(jiǎn)單單元兩者)。
[0039]諸如214之類的直線箭頭指出指令之間的依賴性。這種映射可由編譯器、前端硬件或運(yùn)行時(shí)環(huán)境實(shí)現(xiàn)。圖2A還表示了格式化運(yùn)算圖,其顯示出當(dāng)矩陣中的指令將在帶有并行和串行依賴性指示器的對(duì)應(yīng)硬件位置處被執(zhí)行時(shí),這些指令在矩陣中的相對(duì)物理位置。
[0040]如圖2A所示,單數(shù)據(jù)流程序再形成為靜態(tài)確定串行執(zhí)行的指令以及指令并行的指令矩陣。例如,在圖2A的串行單一程序流中,最后一個(gè)指令采用R3作為源,同時(shí)第四個(gè)指令將R3寫(xiě)作結(jié)果。通過(guò)將最后一條指令放置在緊接著第四條指令所在那行之后的一行中,這就映射在矩陣模板中。線214表示這種依賴性。
[0041]圖2B中解釋了編碼指令及其用于圖2A所示模板的源和目的地,其中指令矩陣模板包括用于指令的操作碼,并指定操作數(shù)和結(jié)果寄存器。源和目的地與操作碼分離。這樣簡(jiǎn)化了解碼階段、依賴性解析階段和寄存器/存儲(chǔ)器讀取階段。
[0042]如圖3所示,可以同時(shí)發(fā)出幾個(gè)指令矩陣。圖3表示201的指令矩陣運(yùn)算圖,在此表示為301,以及可選配置的指令矩陣運(yùn)算圖300、302和304。可采用下列模型之一來(lái)實(shí)現(xiàn)同時(shí)的發(fā)出:
1-MMD或SMD:軟件/編譯器將多個(gè)矩陣合并為一個(gè)超級(jí)矩陣。
2-線程模型:每個(gè)矩陣屬于分離的軟件或硬件線程。
3-動(dòng)態(tài)執(zhí)行:如果在來(lái)自單個(gè)流的多個(gè)矩陣之間沒(méi)有依賴性,則可由硬件動(dòng)態(tài)發(fā)出矩陣。
[0043]圖3中由運(yùn)算圖表示的指令矩陣模板在將這些指令時(shí)隙一一對(duì)應(yīng)地映射到執(zhí)行單元(執(zhí)行塊內(nèi)部)的硬件上執(zhí)行。矩陣粒度允許形成基線矩陣并將那些矩陣合并為一個(gè)超級(jí)矩陣。這在圖4A中表示,其中4基線指令矩陣在四個(gè)執(zhí)行塊301、300、302和304上并行執(zhí)行。每個(gè)執(zhí)行程序由兩行復(fù)雜單元組成。第一行具有3個(gè)復(fù)雜單元(例如402、404和406),而另一行具有3個(gè)復(fù)雜單元(例如408、410和412)。每個(gè)復(fù)雜單元可操作地進(jìn)行復(fù)雜運(yùn)算,比如乘法運(yùn)算、浮點(diǎn)加法運(yùn)算或者乘-累加運(yùn)算。因此,比如復(fù)雜單元402可以對(duì)應(yīng)于圖2的202,復(fù)雜單元404可以對(duì)應(yīng)于圖2的204等等。
[0044]復(fù)雜單元可操作地進(jìn)行至多4個(gè)簡(jiǎn)單運(yùn)算,比如ALU運(yùn)算。因此,這種復(fù)雜單元被顯示為具有多個(gè)操作數(shù)和多個(gè)輸出。這些單元可設(shè)置成計(jì)算并行運(yùn)算或者順序地執(zhí)行依賴運(yùn)算。每個(gè)基線指令矩陣在線程模式下可以獨(dú)立于其他矩陣運(yùn)行,或者多個(gè)基線指令矩陣合并成在同一周期內(nèi)運(yùn)行的組,作為組成MIMD體系結(jié)構(gòu)的超級(jí)指令矩陣。整體矩陣可以在一個(gè)周期內(nèi)執(zhí)行,或者可在多個(gè)周期內(nèi)按照流水線方式執(zhí)行。
[0045]作為操作圖4A所示的執(zhí)行引擎來(lái)執(zhí)行圖3所示ULIM指令模板的實(shí)例,在復(fù)雜單元408中執(zhí)行指令MAC208,同時(shí)在一對(duì)408的單元中執(zhí)行簡(jiǎn)單邏輯和ALU運(yùn)算對(duì)210。圖4A表示與VLIW體系結(jié)構(gòu)的異同。如果在圖4A中采用上部3個(gè)時(shí)隙(402、404、406)執(zhí)行3個(gè)并行指令,那么ULIM模板中的這3個(gè)時(shí)隙將類似于等效的VLIW指令。利用簡(jiǎn)單單元(408,410,412)下一行執(zhí)行3個(gè)或更多的并行指令,將意味著正在執(zhí)行依賴于先前指令的另一個(gè)等效VLIW。這樣,UUM體系結(jié)構(gòu)可以被看成在空間中執(zhí)行,并具有固定延遲、固定數(shù)量的多個(gè)相互依賴的VLIW指令。另外,該體系結(jié)構(gòu)允許在一個(gè)簡(jiǎn)單時(shí)隙中執(zhí)行單個(gè)復(fù)雜指令或多個(gè)簡(jiǎn)單指令,而這在VLIW模板中是不允許的。
[0046]圖3中的運(yùn)算圖301、300、302和304表示的4個(gè)UUM矩陣可在圖4A的硬件上執(zhí)行。這可以按照3種執(zhí)行模式之一來(lái)實(shí)現(xiàn):要么通過(guò)編譯器/編程器將這些矩陣集合起來(lái)形成MMD超級(jí)指令矩陣,要么每個(gè)矩陣可以獨(dú)立地以線程模式執(zhí)行,線程模式中分離的線程同時(shí)在四個(gè)硬件分段(301、300、302和304)上的每個(gè)硬件分段上執(zhí)行。最后一種執(zhí)行模式可能是利用硬件依賴性檢查來(lái)確保同時(shí)在圖4A中的四個(gè)不同硬件分段上執(zhí)行的不同矩陣之間不具有依賴性,從而能夠動(dòng)態(tài)地在單個(gè)線程中執(zhí)行4個(gè)不同的指令矩陣。
[0047]圖4A中的寄存器文件420可選地根據(jù)執(zhí)行模式進(jìn)行配置。在一種模式下,寄存器文件要么被看作提供4段MMD寬度的MMD分段寄存器文件,要么用作4個(gè)獨(dú)立的寄存器文件,每個(gè)寄存器文件提供一個(gè)分離的線程。寄存器文件還可以支持動(dòng)態(tài)執(zhí)行模式,其中4段是一個(gè)合一的寄存器文件,其中寫(xiě)入一個(gè)指定分段中任何寄存器的數(shù)據(jù)都可由其他分段中的全部單元進(jìn)行訪問(wèn)。因?yàn)椴煌膱?zhí)行模式可以在獨(dú)立線程基線指令矩陣和MMD超級(jí)指令矩陣線程之間轉(zhuǎn)換,所以那些模式之間的轉(zhuǎn)換可以是無(wú)縫的。
[0048]每個(gè)單指令矩陣是并行指令和依賴指令的混合。此外,每個(gè)獨(dú)立指令可以是標(biāo)量或SIMD指令。在最細(xì)的粒度下,該指令可以類似于對(duì)多個(gè)字節(jié)/字或單個(gè)標(biāo)量實(shí)體進(jìn)行的可變數(shù)據(jù)寬度SMD運(yùn)算。
[0049]在多線程執(zhí)行模式下,每個(gè)寄存器文件及其執(zhí)行線程的執(zhí)行單元完全獨(dú)立于其他寄存器文件及其線程。這類似于每個(gè)線程都具有其自己的寄存器狀態(tài)。然而,可以指定這些線程之間的依賴性。屬于一個(gè)線程的每個(gè)矩陣將在該線程的寄存器文件的執(zhí)行單元中執(zhí)行。如果只有一個(gè)線程或非線程化單一程序在圖4A中的硬件上執(zhí)行,那么采用下列方法允許屬于單個(gè)線程/程序的并行矩陣能夠訪問(wèn)已寫(xiě)入其他分段內(nèi)的寄存器中的結(jié)果。實(shí)現(xiàn)這點(diǎn)的方法是允許任何矩陣將結(jié)果寫(xiě)入到4個(gè)寄存器文件的任何一個(gè),從而產(chǎn)生其他寄存器文件分段中那些寄存器的拷貝。這在物理上是通過(guò)將每個(gè)分段的寫(xiě)端口延伸到剩余分段中實(shí)現(xiàn)的。然而,因?yàn)椴荒芙⒂行实募拇嫫魑募?,使得每個(gè)存儲(chǔ)單元具有的寫(xiě)端口的數(shù)量是一個(gè)分段單獨(dú)所需寫(xiě)端口數(shù)量的4倍,所以這不是可伸縮的。現(xiàn)在提供一種機(jī)制,其中使得寄存器文件的建立不受這種單線程寄存器廣播擴(kuò)展的影響。這種機(jī)制如圖4B所示。
[0050]圖4B顯示由24個(gè)寄存器組成的寄存器文件的一段,其中屬于單個(gè)線程的矩陣正在保存位于該分段的24個(gè)條目寄存器文件中的執(zhí)行結(jié)果。同時(shí),3個(gè)其他的并行矩陣正在圖4A中其他3個(gè)分段上執(zhí)行,并且它們的執(zhí)行結(jié)果被廣播到這個(gè)寄存器文件分段。
[0051]通過(guò)將每個(gè)矩陣的結(jié)果限制到不相重疊的6個(gè)寄存器組,將寫(xiě)端口配置成啟動(dòng)單個(gè)線程寄存器廣播。通過(guò)分段寫(xiě)端口實(shí)現(xiàn)了這種方法,其中每個(gè)寫(xiě)端口寫(xiě)入到寄存器430的分離的組中。來(lái)自其他分段的寫(xiě)端口 440將寫(xiě)入到不同的不相重疊的寄存器組中。
[0052]如果這是線程模式或MMD模式,那么由該分段的結(jié)果使用那些進(jìn)入不重疊組的全部寫(xiě)端口,從而利用并寫(xiě)入全部24個(gè)條目寄存器文件,并且因?yàn)槠渌侄尉哂惺褂锚?dú)立寄存器的獨(dú)立代碼(意味著本地分段寄存器將需要使用全部寄存器),所以不進(jìn)行廣播。另一方面,如果使用單線程,那么全部分段協(xié)作起來(lái)為這個(gè)單線程工作。在這種情況下的寄存器總數(shù)僅僅為24,因此跨過(guò)剩余分段(24條目*3分段)的寄存器可用于互相保存拷貝。通過(guò)編譯器進(jìn)行分析以判斷矩陣是否可以并行化并對(duì)那些有機(jī)會(huì)并行執(zhí)行不重疊寄存器組的矩陣進(jìn)行分配,可以分配這個(gè)寄存器組。
[0053]盡管根據(jù)全部4個(gè)分段寫(xiě)入結(jié)果,寄存器文件中的每個(gè)存儲(chǔ)單元僅僅具有支持一個(gè)分段的端口。在傳統(tǒng)的寄存器文件中必需支持4個(gè)分段,在下面所示的實(shí)例中進(jìn)行了 4折(fold)的增加。
[0054]在UUM基線格式之上,這些體系結(jié)構(gòu)中實(shí)現(xiàn)了 UUM中的數(shù)據(jù)并行性。這是通過(guò)允許ULIM模板中的每個(gè)指令都是SMD/MMD指令來(lái)實(shí)現(xiàn)的。在前述附圖中,每個(gè)并行時(shí)隙可以支持內(nèi)部復(fù)制的SIMD結(jié)構(gòu),同時(shí)由不同的并行/串行時(shí)隙支持MIMD。
[0055]依賴于不同的預(yù)期訪問(wèn)性質(zhì),能夠看到存儲(chǔ)器/寄存器或矩陣緩沖器可由指令訪問(wèn)。例如,數(shù)據(jù)矩陣可以被看作寬數(shù)據(jù)元(element)的MMD,小數(shù)據(jù)元的SMD,或混合數(shù)據(jù)寬度SMD指令的MMD。
[0056]在圖5中,顯示了數(shù)據(jù)的存儲(chǔ)器/寄存器矩陣緩沖器布置的2個(gè)視圖。右側(cè)視圖表示每行和每列中的相互垂直的數(shù)據(jù)元。這樣支持不同的MMD/SMD數(shù)據(jù)的組合。左側(cè)視圖表示任意行中每個(gè)位置的不同元,但是列表示更大數(shù)據(jù)量元的剩余位數(shù)。例如,右側(cè)視圖可以表示4條MMD指令,每條指令對(duì)4個(gè)不同的SMD字節(jié)進(jìn)行運(yùn)算,每條指令是一個(gè)字節(jié)的并行數(shù)據(jù)元。同時(shí)左側(cè)表示4條MMD指令,每條指令對(duì)縱向布置的32位元進(jìn)行運(yùn)算(實(shí)際的物理布置不同于所示的邏輯表示)。此外,如果視圖是MMD視圖,那么全都屬于4分段的一個(gè)單獨(dú)的MMD寄存器,但是如果該視圖不是MMD視圖,那么那些寄存器是4個(gè)縱向布置的獨(dú)立寄存器。
[0057]這個(gè)存儲(chǔ)器和寄存器文件視圖及其對(duì)應(yīng)的執(zhí)行模式的意義在于,它啟動(dòng)執(zhí)行單元變形(morph)來(lái)執(zhí)行寬MMD/SMD指令(將全部寄存器分段合并成4路MMD/SMD),但是同時(shí)4個(gè)寄存器文件分段和附加的對(duì)應(yīng)執(zhí)行單元能作為4個(gè)獨(dú)立單元對(duì)4個(gè)不同的標(biāo)量寄存器進(jìn)行運(yùn)算,允許以最小粒度級(jí)別在執(zhí)行單元內(nèi)部以單線程和多線程執(zhí)行。
[0058]UUM體系結(jié)構(gòu)具有類似于VLIW或MMD模板的固定大小的指令模板。與VLIW或MMD模板不同,UUM模板允許指定并行指令以及依賴指令兩者。寫(xiě)入寄存器以及在通過(guò)寄存器名稱傳達(dá)依賴性的矩陣內(nèi)部的指令依賴性都遵循相同的馮諾依曼指令體系結(jié)構(gòu)。ULIM體系結(jié)構(gòu)另一個(gè)值得注意的方面在于,矩陣中每個(gè)指令在矩陣中具有固定的預(yù)定位置,并且以相對(duì)于矩陣中其他指令的固定分時(shí)進(jìn)行執(zhí)行。ULIM矩陣寬度類似于對(duì)應(yīng)的VLIW模板的寬度。事實(shí)上,通過(guò)在UUM模板一個(gè)橫向行中放置一條VLIW指令,可以將依賴VLIW指令以串行流轉(zhuǎn)換到ULIM模板中。不可能相似于利用VLIW指令流的全部可能的ULIM模板,因?yàn)閁LIM模板可以包括在一個(gè)時(shí)隙中處于同一行的一條復(fù)雜指令以及在橫向相鄰時(shí)隙中的多條簡(jiǎn)單指令。
[0059]與執(zhí)行單獨(dú)指令的傳統(tǒng)體系結(jié)構(gòu)不同,使用組成指令矩陣的矩陣體系結(jié)構(gòu)的優(yōu)點(diǎn)很多。下面的論述示出了啟動(dòng)和利用本發(fā)明指令矩陣和執(zhí)行塊體系結(jié)構(gòu)的機(jī)制建立和實(shí)現(xiàn)大規(guī)模并行單處理器流水線。
[0060]圖6表示可以實(shí)現(xiàn)的利用ULIM體系結(jié)構(gòu)的處理器流水線。本發(fā)明利用一種機(jī)制來(lái)簡(jiǎn)化提取(fetch)階段600、分支(branch)分析和解碼階段608。提取單元600基于指令矩陣而不是基于指令取得代碼。通過(guò)矩陣大小而不是指令大小來(lái)增加這種體系結(jié)構(gòu)的程序計(jì)數(shù)器。這樣意味著在每個(gè)周期提取大量指令。為了能夠?qū)崿F(xiàn)上述目的,ULIM矩陣不允許在ULIM矩陣內(nèi)部存在分支,但可以在ULIM矩陣之間存在分支。分支分析在兩種級(jí)別上進(jìn)行。在ULM矩陣內(nèi)部,分支被替換為條件執(zhí)行、條件移動(dòng)和預(yù)測(cè)。在矩陣之間,通過(guò)路徑預(yù)計(jì)和分支著色對(duì)分支進(jìn)行處理。這樣允許分組到矩陣中的大量指令前進(jìn)通過(guò)流水線提取階段和分支分析階段。
[0061]在單個(gè)矩陣內(nèi)部沿著側(cè)面并行指令執(zhí)行依賴指令解除了由編譯器構(gòu)造全部并行指令時(shí)隙代碼的困難。它也簡(jiǎn)化了在分?jǐn)?shù)板硬件(score board hardware)602、分派單元604或硬件調(diào)度單元中的數(shù)據(jù)依賴性檢查。這是通過(guò)利用矩陣數(shù)目作為工具執(zhí)行矩陣之間的分?jǐn)?shù)板和依賴性保持、而不是利用單獨(dú)的寄存器或單獨(dú)的指令實(shí)現(xiàn)的。在圖7的實(shí)例中,分?jǐn)?shù)板僅通過(guò)參考矩陣數(shù)目2、4和5歸納矩陣8的依賴性優(yōu)先級(jí),這意味著矩陣8需要從那些矩陣中讀出數(shù)據(jù)結(jié)果。分?jǐn)?shù)板依賴性檢查不需要參考(reference)單獨(dú)寄存器或指令信息以維持依賴性分?jǐn)?shù)板。矩陣數(shù)目攜帶這種信息并且足以保持依賴性檢查的正確性。依賴于其他矩陣的矩陣內(nèi)部指令可以在那些矩陣已被執(zhí)行之后發(fā)出。當(dāng)矩陣依賴于延遲(例如,因?yàn)楦咚倬彺嫖粗?時(shí),阻止整個(gè)矩陣被分派。在ULIM流水線實(shí)現(xiàn)的一個(gè)實(shí)施例中,延遲解碼階段608,直到該階段正好在執(zhí)行階段之前為止,并且該階段與寄存器讀階段606并行執(zhí)行。
[0062]圖8表示對(duì)ULIM體系結(jié)構(gòu)指令模板進(jìn)行編碼的一個(gè)實(shí)施例。其關(guān)鍵在于編碼和操作數(shù)的結(jié)構(gòu)(結(jié)果寄存器和源寄存器)。在ULIM模板分離分段中指定指令結(jié)果和源操作數(shù)的寄存器,而不管指令的操作碼并且不管這些指令是復(fù)雜運(yùn)算或簡(jiǎn)單指令對(duì)。這種矩陣格式以明確的矩陣分段的方式列出源和目的地,使得獲取源寄存器和目的地寄存器與矩陣內(nèi)部指令解碼無(wú)關(guān)。這樣能實(shí)現(xiàn)延遲解碼階段,其中單獨(dú)指令操作數(shù)的實(shí)際解碼被延遲,直到僅僅先于執(zhí)行階段為止,并且這種解碼和讀取寄存器來(lái)啟動(dòng)下一個(gè)周期執(zhí)行并行進(jìn)行。這樣也簡(jiǎn)化了依賴性分析和分?jǐn)?shù)板實(shí)現(xiàn)。
[0063]如果時(shí)隙包括復(fù)雜指令,比如“乘累加(MAC) ”,那么需要4個(gè)源并且寫(xiě)回2個(gè)結(jié)果。如果同一時(shí)隙包括兩個(gè)簡(jiǎn)單指令,比如Logic和ALU,那么每個(gè)指令需要兩個(gè)源并寫(xiě)回一個(gè)結(jié)果,其中兩者合起來(lái)需要4個(gè)源并產(chǎn)生兩個(gè)結(jié)果。這使得源和結(jié)果的數(shù)量與運(yùn)算類型無(wú)關(guān)。
[0064]如圖4A所示的處理器執(zhí)行硬件包括寄存器讀寫(xiě)機(jī)制,其中矩陣操作數(shù)緩沖器能夠基于每個(gè)源在相應(yīng)的矩陣硬件元上執(zhí)行的物理位置,匯集所需寄存器源和目的地。這樣減少了讀寫(xiě)端口數(shù)目以及寄存器文件的帶寬要求。利用這種矩陣體系結(jié)構(gòu)的特點(diǎn),在矩陣緩沖器中對(duì)源和/或目的地進(jìn)行緩沖的旁路機(jī)制得以簡(jiǎn)化,其中由每個(gè)執(zhí)行單元關(guān)閉或附著到矩陣緩沖器能夠比傳統(tǒng)的寄存器文件(特別在需要支持如此多的單個(gè)執(zhí)行單元的大型寄存器文件的情況下)提供更短的訪問(wèn)時(shí)間以及更大的源和結(jié)果端口帶寬。
[0065]圖9表示本發(fā)明的矩陣緩沖器的原理。該圖顯示指令矩陣操作數(shù)緩沖器900連接到執(zhí)行單元902。在這個(gè)實(shí)例中,指令矩陣操作數(shù)緩沖器900為3個(gè)不同的矩陣緩沖源和目的地。尤其重要的是寫(xiě)端口 904設(shè)置成每個(gè)寫(xiě)端口向不同的存儲(chǔ)器單元寫(xiě)入。這意味著即使同時(shí)寫(xiě)入6個(gè)結(jié)果,矩陣操作數(shù)緩沖器存儲(chǔ)器單元仍是單個(gè)端口的,所述6個(gè)結(jié)果相當(dāng)于傳統(tǒng)的6路端口的寄存器文件。此外,每個(gè)寫(xiě)端口的扇出(需要驅(qū)動(dòng)的單元)等于矩陣緩沖器中的矩陣數(shù)目(在這個(gè)實(shí)例中僅為3)。這些特征在面積、功率和訪問(wèn)速度方面具有很多的優(yōu)點(diǎn),使得這種緩沖器結(jié)構(gòu)具有很好的可伸縮性,并且對(duì)于作為高帶寬高速寄存器文件的備選非常具有吸引力。
[0066]下列方法描述如何從矩陣操作數(shù)緩沖器對(duì)寄存器進(jìn)行寫(xiě)入和訪問(wèn)。每個(gè)矩陣正好在或略先于矩陣準(zhǔn)備好執(zhí)行而被分配到矩陣緩沖器中任何可用的矩陣空間中。矩陣需要能夠開(kāi)始執(zhí)行的遠(yuǎn)端源(例如不在這個(gè)矩陣緩沖器內(nèi)部的其他矩陣存儲(chǔ)器中的源)可以暫時(shí)在這個(gè)矩陣存儲(chǔ)器中分級(jí)。
[0067]在執(zhí)行矩陣之后,結(jié)果寫(xiě)入為這個(gè)矩陣存儲(chǔ)器分配的區(qū)域中(圖9的矩陣緩沖器內(nèi)的3個(gè)矩陣位置之一)。每個(gè)結(jié)果被寫(xiě)入到由結(jié)果寫(xiě)端口訪問(wèn)的對(duì)應(yīng)位置,而與結(jié)果寄存器數(shù)目無(wú)關(guān)。與矩陣位置一起的這個(gè)位置被傳輸?shù)筋愃朴趫D7所示的分?jǐn)?shù)板機(jī)制的消耗矩陣中,使得依賴于該矩陣的每個(gè)矩陣將用那些源來(lái)自的矩陣位置以及矩陣內(nèi)部每個(gè)源的位置來(lái)標(biāo)記它的寄存器源。矩陣內(nèi)部的結(jié)果位置能夠在執(zhí)行時(shí)間由執(zhí)行硬件傳遞,或者因?yàn)榫仃嚹0逶诰幾g時(shí)固定,所以矩陣內(nèi)部結(jié)果位置能伴隨著源寄存器數(shù)目被軟件嵌入矩陣指令模板中。
[0068]基本思想是建立起可伸縮的伴隨著寄存器文件的源和結(jié)果緩沖器結(jié)構(gòu),其中那些緩沖器連接到執(zhí)行單元,從而通過(guò)在常規(guī)寄存器文件和執(zhí)行單元之間建立起中間介質(zhì)的標(biāo)識(shí)方法,在基于位置的矩陣中臨時(shí)保持?jǐn)?shù)據(jù),以允許更高帶寬和速度??衫镁仃囄恢煤途仃噧?nèi)部源位置訪問(wèn)那些矩陣緩沖器中的值。例如,通過(guò)記錄在矩陣緩沖器何處分配該矩陣,以及通過(guò)在矩陣內(nèi)部物理占用的寄存器5的結(jié)果的條目編號(hào)來(lái)索引該矩陣本身的存儲(chǔ)器,能夠訪問(wèn)通過(guò)矩陣20寫(xiě)入的寄存器5。然而,在矩陣被從矩陣緩沖器中解除分配之后,那么矩陣內(nèi)部的全部條目保持寄存器值將寫(xiě)回實(shí)際的寄存器文件并且通過(guò)從該時(shí)刻往前的寄存器編號(hào)來(lái)訪問(wèn)。用于寄存器文件的利用矩陣數(shù)據(jù)緩沖器的基于位置的前述相同標(biāo)識(shí)和訪問(wèn)方法可被用于使用存儲(chǔ)緩沖器高速緩沖的存儲(chǔ)器訪問(wèn)。
[0069]如果下層硬件是統(tǒng)一的并且是重復(fù)的,那么可以容易地通過(guò)編譯器構(gòu)造該矩陣的體系結(jié)構(gòu)。它也允許更有效率地使用功率和硅面積。在此,我們引入通用單元的概念,所述通用單元是根據(jù)諸如小加法器、邏輯門、復(fù)用器(multiplexer)和布斯(booth)單元之類的基礎(chǔ)建立元而構(gòu)成的。[0070]通用單元的體系結(jié)構(gòu)允許它在每一個(gè)通用單元的內(nèi)部執(zhí)行全部功能/運(yùn)算。這意味著每個(gè)單元都能夠進(jìn)行加法、乘法、移位、轉(zhuǎn)置(permute)等。這種方法能執(zhí)行這種通用功能的方式在于它的組成脫離了用于執(zhí)行簡(jiǎn)單ALU運(yùn)算的基礎(chǔ)建立元。另一方面,這些簡(jiǎn)單元級(jí)聯(lián)地執(zhí)行復(fù)雜運(yùn)算。它也可以處理浮點(diǎn)和整數(shù)數(shù)據(jù)。上述思想有利于理解通用單元的概念,但是它通過(guò)簡(jiǎn)化調(diào)度并將機(jī)器吞吐量利用到極限,從而獲得了顯著的優(yōu)點(diǎn)。在常規(guī)的體系結(jié)構(gòu)中,采用分離的單元執(zhí)行每個(gè)運(yùn)算或功能。它們共享相同的執(zhí)行端口。這樣,當(dāng)使用一個(gè)單元時(shí),沒(méi)有使用其他單元。此外,傳統(tǒng)體系結(jié)構(gòu)中的延遲在它們之間發(fā)生變化,使得調(diào)度器難于調(diào)度它們。相反,在這個(gè)通用單元中,對(duì)于整個(gè)單元統(tǒng)一了延遲,并且調(diào)度器可以看到通用單元的對(duì)稱例化。
[0071]圖1OA顯示這個(gè)通用單元的一部分。每個(gè)通用單元可以執(zhí)行不同的執(zhí)行單元功能,比如乘法器、加法器、移位器、轉(zhuǎn)置器等等。這個(gè)實(shí)施例顯示進(jìn)位保留加法器和/或普通加法器1000的結(jié)構(gòu)。該單元由基礎(chǔ)要件組成,每個(gè)要件具有4行(可以是更多或更少的加法器)能并行加8個(gè)輸入(4個(gè)并行/串行的加運(yùn)算)的加法器。這些加法器然后被構(gòu)造成組。一行中的每個(gè)加法器要么連接到下面一行相同位置地址加法器(以執(zhí)行串行ALU運(yùn)算),要么被連接到下面一行它右側(cè)的加法器以執(zhí)行乘法運(yùn)算。該運(yùn)算可以是C*B+A或A OPB,在每行中形成4個(gè)并行/串行ALU運(yùn)算。另外,這些加法器組有可能具有不同的數(shù)據(jù)大小。加法器的這種結(jié)構(gòu)允許樹(shù)執(zhí)行多操作數(shù)加法、乘法、乘累積、差分求和、移位及循環(huán)。另夕卜,復(fù)用器(未在圖中顯示)將對(duì)齊/轉(zhuǎn)置/移位輸入或中間輸出,從而獲得所需的運(yùn)算,包括移位和轉(zhuǎn)置運(yùn)算。布斯單元/位乘單元1002被加到加法器,從而實(shí)現(xiàn)乘法。增加其他具體的邏輯、狀態(tài)、存儲(chǔ)器或LUT元,從而提供擴(kuò)展功能。
[0072]通用單元允許利用與執(zhí)行乘法運(yùn)算相同的結(jié)構(gòu)或與用于執(zhí)行浮點(diǎn)加或浮點(diǎn)乘累積相同的結(jié)構(gòu)實(shí)現(xiàn)轉(zhuǎn)置/移位單元。其優(yōu)點(diǎn)在于允許較少的路徑/面積來(lái)實(shí)現(xiàn)轉(zhuǎn)置/移位邏輯。通過(guò)執(zhí)行2X乘,利用乘結(jié)構(gòu)執(zhí)行移位或循環(huán)(rotate),其中X是移位計(jì)數(shù)值。通過(guò)分別選擇乘積結(jié)果的上部分或者下半部,或者在乘積結(jié)果的上部分和下部分之間執(zhí)行"或"函數(shù),來(lái)實(shí)現(xiàn)左移、右移或循環(huán)。
[0073]利用基礎(chǔ)的2-輸入加法器結(jié)構(gòu),每個(gè)元組成一組位。進(jìn)位保存加法器還可以利用邏輯和MUX(多路復(fù)用器)來(lái)實(shí)現(xiàn)。例如,為了建立32*32元,基組可以由8位或4位基礎(chǔ)加法器和MUXES構(gòu)建,并且能利用修改過(guò)的超前進(jìn)位加法器單元內(nèi)部邏輯門執(zhí)行邏輯函數(shù)。
[0074]圖1OB顯示用于圖1OA中4位加法器的修改后的超前進(jìn)位加法器的基礎(chǔ)一位單元,從而要么產(chǎn)生加法器輸出,要么產(chǎn)生選擇的邏輯輸出。通過(guò)不在加法器的關(guān)鍵路徑中的連接1010和兩個(gè)4:1復(fù)用器1012顯示出這種修改。原來(lái)的加法器位結(jié)構(gòu)(標(biāo)記為1014)包括超前進(jìn)位和求和邏輯。這些圖是邏輯表示,其實(shí)際電路可能不同。
[0075]4位(或8位)組便于執(zhí)行各種大小的SIMD寬度以及進(jìn)行16位運(yùn)算。通過(guò)相同的原理,那些16位的片(tiles)可以級(jí)聯(lián)起來(lái)用于更大寬度的數(shù)據(jù)運(yùn)算,比如64位運(yùn)算,同時(shí)仍然便于加法和多操作數(shù)加法、移位、循環(huán)和乘法的8位、16位和32位SIMD運(yùn)算。
[0076]這種結(jié)構(gòu)背后的基本原理在于能在同一結(jié)構(gòu)上執(zhí)行并行和串行指令的組合。例如,第一行結(jié)構(gòu)可以執(zhí)行單個(gè)32位ALU,該ALU可以在第二行繼之以依賴ALU或者無(wú)關(guān)ALU等等。4行一起可以執(zhí)行至多四個(gè)32位ALU串行/平行運(yùn)算,或者單個(gè)32位乘法運(yùn)算。它還可以對(duì)子矩陣執(zhí)行部分寬度SMD運(yùn)算。尤其在矩陣數(shù)據(jù)和指令分段中,在這個(gè)通用單元上調(diào)度的指令和操作數(shù)成為一個(gè)組。
[0077]因?yàn)樵谕恢芷诨蛟诮酉聛?lái)的周期內(nèi),對(duì)待調(diào)度的依賴指令進(jìn)行流水線處理依賴于所需頻率,所以可以利用指令矩陣體系結(jié)構(gòu)在一個(gè)周期內(nèi)對(duì)指令進(jìn)行流水線處理。存在多種方法來(lái)利用ULIM體系結(jié)構(gòu)。該系統(tǒng)允許超大指令矩陣調(diào)度。并行指令以及依賴指令作為一個(gè)矩陣進(jìn)行調(diào)度(這與VLIW中僅能調(diào)度并行指令形成對(duì)比)。這個(gè)矩陣中每個(gè)指令或依賴指令可以是標(biāo)量或SIMD。
[0078]該發(fā)明可用很多種方法實(shí)現(xiàn)。例如,可以在時(shí)鐘周期內(nèi)部分級(jí)多個(gè)依賴指令。在本發(fā)明的這個(gè)具體實(shí)施例中,可以在一個(gè)時(shí)鐘周期內(nèi)部分級(jí)多個(gè)依賴和并行指令??梢栽谝粋€(gè)周期內(nèi)開(kāi)始多個(gè)依賴指令;這樣減少了程序執(zhí)行的最優(yōu)關(guān)鍵路徑。將一個(gè)單元內(nèi)的每種基本運(yùn)算從隨后的運(yùn)算中分離,利用狀態(tài)元可以對(duì)多個(gè)依賴指令進(jìn)行流水線處理。這樣增加了流水線執(zhí)行率。然而,因?yàn)闀r(shí)鐘速度和額外的狀態(tài)元,這種結(jié)構(gòu)的功率將增加。狀態(tài)元可以保持定值,但是利用波(wave)流水線提高了通過(guò)該結(jié)構(gòu)提取的數(shù)據(jù)率。
[0079]該發(fā)明也包括延時(shí)切片體系結(jié)構(gòu)(Time-Lag Sliced Architecture, TLSA),其減少了依賴指令的等待時(shí)間。延時(shí)切片體系結(jié)構(gòu)背后的基本思想在于一種運(yùn)算通過(guò)數(shù)字切片產(chǎn)生其結(jié)果數(shù)字切片。每個(gè)切片早于下一個(gè)切片一個(gè)切片間的延時(shí)產(chǎn)生。一旦產(chǎn)生第一個(gè)切片,可以開(kāi)始執(zhí)行下一個(gè)計(jì)算,然后產(chǎn)生其自己的切片。在此描述的切片結(jié)構(gòu)是總體結(jié)構(gòu),適用于計(jì)算單元以及寄存器文件和存儲(chǔ)器。該體系結(jié)構(gòu)應(yīng)用于全部算術(shù)、移位、整數(shù)和浮點(diǎn)運(yùn)算。
[0080]TLSA用于實(shí)現(xiàn)整個(gè)系統(tǒng)總體結(jié)構(gòu),包括存儲(chǔ)器和計(jì)算。數(shù)字切片不必等于固定大小的數(shù)字。該發(fā)明可以對(duì)數(shù)字切片方式到達(dá)的兩個(gè)操作數(shù)進(jìn)行運(yùn)算。本發(fā)明可以實(shí)現(xiàn)布斯編碼乘法器、變量移位器、轉(zhuǎn)置引擎以及浮點(diǎn)加法器和乘法器。
[0081]在設(shè)計(jì)的執(zhí)行單元中,普通方法是將算術(shù)/邏輯或移位器單元的輸出結(jié)果的數(shù)字或數(shù)字位作為一個(gè)單輸出結(jié)果進(jìn)行同步。該結(jié)果要么鎖定到存儲(chǔ)元或者同時(shí)作為一個(gè)塊分級(jí)到接收元中。然而,在這種體系結(jié)構(gòu)中,細(xì)粒執(zhí)行提供或不提供粗粒同步執(zhí)行?;舅枷胧窃跁r(shí)間和/或空間上分級(jí)的延時(shí)邏輯切片結(jié)構(gòu)中用公式表示算術(shù)或轉(zhuǎn)置/移位運(yùn)算。執(zhí)行硬件以延時(shí)流連接,其中先前切片執(zhí)行得更快并且更快產(chǎn)生輸出結(jié)果的切片,同時(shí)后面的切片就需要更多時(shí)間來(lái)執(zhí)行并以相對(duì)于先前切片延遲產(chǎn)生結(jié)果。值得注意的是,即使在單個(gè)執(zhí)行單元內(nèi)部,比如加法器或轉(zhuǎn)置器內(nèi)部,也以位/數(shù)字的細(xì)粒度進(jìn)行切片。這個(gè)體系結(jié)構(gòu)可以利用這種數(shù)字/位邏輯電路切片結(jié)構(gòu)來(lái)優(yōu)化邏輯分時(shí)關(guān)鍵路徑和/或信號(hào)路由路徑編號(hào)和/或執(zhí)行算術(shù)、轉(zhuǎn)置、移位等用于整數(shù)和/或浮點(diǎn)運(yùn)算的面積。該切片可以具有相等的位/數(shù)字或不同數(shù)目的位/數(shù)字。這種體系結(jié)構(gòu)的一個(gè)特別的優(yōu)點(diǎn)在于能夠在最后確定全部源指令的輸出結(jié)果切片之前,開(kāi)始執(zhí)行依賴指令。
[0082]圖11表示TLSA單元1100,其中數(shù)據(jù)流入流出切片1102A-1102C。每個(gè)切片輸出具有相對(duì)于前一個(gè)切片的延時(shí)延遲(d)。這種延時(shí)特征允許對(duì)該單元進(jìn)行流水線處理,以便于不同切片的狀態(tài)元不同步到一個(gè)時(shí)間,這典型地用于行/分級(jí)觸發(fā)器。
[0083]圖11的體系結(jié)構(gòu)包括基礎(chǔ)加法器階段結(jié)構(gòu),用于計(jì)算基礎(chǔ)計(jì)算任務(wù),諸如多操作數(shù)加法或子塊乘法等。利用不作為基礎(chǔ)任務(wù)關(guān)鍵路徑的一部分的分級(jí)元1104A-1104C,上述計(jì)算被級(jí)聯(lián)起來(lái)。依賴于被切片的基礎(chǔ)計(jì)算任務(wù),分級(jí)元可以是加法器、復(fù)用器或邏輯門。這些分級(jí)元1104的延遲最小化并等于時(shí)間"d"," d"就是每個(gè)切片輸出和下一個(gè)切片輸出之間的延遲。
[0084]分級(jí)元被選作具有最小的延遲可能,因?yàn)樗步⑵鹎衅g的輸入操作數(shù)切片的延遲。圖11中的基礎(chǔ)計(jì)算任務(wù)可采用任意加法器級(jí)。那些加法器可以是任何類型,比如是二進(jìn)位的或進(jìn)位保留加法器(CSA)。圖11的體系結(jié)構(gòu)的優(yōu)點(diǎn)在于:產(chǎn)生結(jié)果的第一切片早于最終結(jié)果。第一切片被送到后續(xù)運(yùn)算。
[0085]圖12表示本發(fā)明的一個(gè)實(shí)施例,其中多個(gè)延時(shí)切片單元背對(duì)背的交錯(cuò)。在這個(gè)實(shí)施例中,每個(gè)對(duì)角線切片表示被分成切片的一個(gè)指令計(jì)算單元。在此,相對(duì)于前一切片的延時(shí)處開(kāi)始執(zhí)行每個(gè)切片。每個(gè)單元反饋一個(gè)后續(xù)的單元。這個(gè)實(shí)施例顯示背對(duì)背的四個(gè)單兀。標(biāo)記SU1_0引用單兀號(hào)I的切片號(hào)O。SU4_7引用單兀號(hào)4的切片號(hào)7。
[0086]圖12所示體系結(jié)構(gòu)允許(如有必要)多個(gè)TLSA單元在單個(gè)周期內(nèi)(或者在多個(gè)周期)內(nèi)處理數(shù)據(jù)。第一單元的下切片反饋第二單元的下切片,并且繼而第二單元反饋第三單元,然后第三單元反饋第四單元等。還應(yīng)當(dāng)注意到,除第一單元的第一切片反饋第二單元的第一切片之外,它也反饋它自身單元(第一單元)的第二切片。圖12表示下列原理:
1-TLSA中的子周期/多周期執(zhí)行
TLSA允許在一個(gè)周期內(nèi)部執(zhí)行算術(shù)/移位/邏輯運(yùn)算。圖12表示4個(gè)單元在一個(gè)周期執(zhí)行,其中每個(gè)切片具有延遲的時(shí)鐘周期。通過(guò)同樣的方式,在每個(gè)單元切片的輸出(而不是4的輸出)處執(zhí)行流水線,從而增加多個(gè)周期中的吞吐量并在多個(gè)周期中進(jìn)行。
2-異步/同步/波TLSA拓?fù)?br>
TLSA可以設(shè)計(jì)成至少3個(gè)不同的拓?fù)浠蜻@些拓?fù)涞慕M合:
A-異步:其中無(wú)需同步狀態(tài)元(例如,觸發(fā)),切片輸入/輸出在周期時(shí)間內(nèi)相互通信。這樣允許去除內(nèi)部流水線狀態(tài)元,并且啟動(dòng)電源放緩時(shí)鐘域。
B-同步:每個(gè)切片計(jì)時(shí)成狀態(tài)元(觸發(fā)/鎖定/多米諾(domino)等等)。這樣允許更高的時(shí)鐘吞吐量和流水線速率。
C-波:在這種拓?fù)淅?,一片一片地將?shù)據(jù)饋入到單元中,接下來(lái)輸入的數(shù)據(jù)快于正常的流水線速率。正常流水線速率依賴于兩個(gè)狀態(tài)元之間的邏輯路徑的最大時(shí)間。波流水線速率依賴于兩個(gè)狀態(tài)元之間的邏輯路徑的最小時(shí)間。
一種有趣的拓?fù)浣M合是細(xì)粒異步粗粒同步(FGA-CGS)。在這種模式中,利用異步連接的延時(shí)切片實(shí)現(xiàn)TLSA,其中細(xì)粒異步執(zhí)行提供或不提供粗粒同步執(zhí)行?;舅枷胧且赃@種切片分級(jí)處理結(jié)構(gòu)來(lái)用公式表示算術(shù)或轉(zhuǎn)置/移位運(yùn)算,其中執(zhí)行硬件的不同切片的執(zhí)行在一個(gè)延遲流中異步連接,其中的早期的切片具有較少的輸入并且更快地執(zhí)行,然后更快地產(chǎn)生其輸出結(jié)果。后面的切片具有更多的輸入,因此需要更多的時(shí)間以相對(duì)于早期切片的延遲執(zhí)行并產(chǎn)生結(jié)果。然后每個(gè)切片以相對(duì)于前面的切片具有延時(shí)的同步(或異步)元進(jìn)行計(jì)時(shí)。
[0087]圖12表示在一個(gè)周期內(nèi)交錯(cuò)的多個(gè)TLSA單元(在I個(gè)時(shí)鐘內(nèi)4個(gè)背對(duì)背加倍計(jì)數(shù)器單元),同時(shí)該實(shí)現(xiàn)表示單元切片以異步方式(細(xì)粒同步)相互通信的FGA-CGS實(shí)現(xiàn),同時(shí)在輸出到狀態(tài)元時(shí)鐘時(shí)同步每個(gè)切片或背對(duì)背切片。每個(gè)切片的輸出可以同步到不同的時(shí)鐘(延遲版本)。
[0088]TLSA體系結(jié)構(gòu)支持超大指令矩陣(ULIM)體系結(jié)構(gòu)。在這個(gè)TLSA實(shí)施例中,整個(gè)指令組被調(diào)度,其中在上述TLSA簇的實(shí)例上調(diào)度多個(gè)并行指令和依賴指令。每個(gè)單元還可以支持SIMD數(shù)據(jù),其中數(shù)據(jù)切片副本被實(shí)例化,但是受到相同的指令激勵(lì)的控制。另外,多個(gè)SMD通用單元的這種組合結(jié)構(gòu)可以被橫向地實(shí)例化,從而在單個(gè)單元上實(shí)現(xiàn)MMD體系結(jié)構(gòu)。這種方法在一個(gè)周期內(nèi)調(diào)度包含SIMD指令和依賴指令的并行變化兩者的整個(gè)指令模板。
[0089]圖13表示傳統(tǒng)的乘法技術(shù)。具體而言,每個(gè)B數(shù)字乘以A數(shù)字的集合,在乘法開(kāi)始時(shí)每個(gè)數(shù)字必須在乘法執(zhí)行單元處可用。然后對(duì)結(jié)果求和。相反,利用本發(fā)明,如圖14所示,操作數(shù)一個(gè)數(shù)字一個(gè)數(shù)字地到達(dá)。可見(jiàn)圖14每行表示乘法運(yùn)算的部分乘積,但是相對(duì)于數(shù)字切片到達(dá)時(shí)間,僅僅包括當(dāng)前到達(dá)和先前到達(dá)的數(shù)字。
[0090]為了顯示如何建立使用布斯編碼乘法的邏輯結(jié)構(gòu)來(lái)執(zhí)行延時(shí)切片結(jié)構(gòu),圖15顯示了傳統(tǒng)的布斯編碼32位常規(guī)乘法器。布斯編碼器組順序?qū)⒍辔幌嗉右援a(chǎn)生數(shù)字。這種分組可以減少最大數(shù)字值,所述最大數(shù)字值是通過(guò)編號(hào)上連續(xù)的兩個(gè)數(shù)字的標(biāo)記組合來(lái)表示這些位的。例如,3位數(shù)字的最大值為7,但是通過(guò)在該數(shù)字值左側(cè)加1,則數(shù)字7現(xiàn)在變?yōu)榱?-1。利用已標(biāo)記的數(shù)字表示,允許那些已編碼數(shù)字值達(dá)到原始數(shù)字值的1/2的最大值。
[0091]圖16實(shí)現(xiàn)了圖15所示利用根值4數(shù)字進(jìn)行常規(guī)布斯乘法的傳統(tǒng)邏輯結(jié)構(gòu)。選擇器1600AU600B選擇被乘數(shù)的哪一個(gè)倍數(shù)來(lái)用完可能的已標(biāo)記值(0,1,-1,2,-2);通過(guò)該乘法器位的布斯編碼來(lái)確定這種選擇。
[0092]圖17和18顯示新的布斯編碼方案以及實(shí)現(xiàn)這種方案的新的TLSA邏輯結(jié)構(gòu)。注意,傳統(tǒng)的乘法器具有連續(xù)不斷編碼的位流,同時(shí)TLSA布斯編碼器在數(shù)字切片邊界處在位流中插入0(在這個(gè)實(shí)例中是8位數(shù)字)。無(wú)論乘法的符號(hào)(最后2位表示符號(hào)),插入的O都不變化。
[0093]圖18顯示出如何實(shí)現(xiàn)新修改的延時(shí)切片布斯編碼32位乘法器。這種實(shí)現(xiàn)相似于圖11所示的通用TLSA結(jié)構(gòu)。圖18實(shí)現(xiàn)如圖14和17所示的子乘法運(yùn)算。
[0094]在UUM基線格式之上,這些體系結(jié)構(gòu)中實(shí)現(xiàn)了 TLSA中的數(shù)據(jù)并行。通過(guò)允許SIMD/MIMD的TLSA數(shù)據(jù)格式中的每個(gè)指令按照正交維數(shù)組織到TLSA切片中實(shí)現(xiàn)了這種方法。圖19顯示由能夠根據(jù)計(jì)劃訪問(wèn)的性質(zhì)不同而看到的指令訪問(wèn)存儲(chǔ)器/寄存器文件數(shù)據(jù)塊的結(jié)構(gòu)。例如,數(shù)據(jù)塊可以看作寬數(shù)據(jù)元的MMD、小數(shù)據(jù)元的SMD、混合數(shù)據(jù)寬度SMD指令的MMD等等。圖19顯示執(zhí)行這種組合的體系結(jié)構(gòu)。單元內(nèi)的切片可以獨(dú)立地運(yùn)算,從而執(zhí)行子運(yùn)算。例如,每個(gè)8位切片可以執(zhí)行獨(dú)立的8位乘法,同時(shí)構(gòu)造一個(gè)32位乘法器單元的切片組還可以作為4路SMD字節(jié)乘法器運(yùn)算。另一方面,單元組可以作為MMD乘法器。
[0095]圖20表示以切片方式訪問(wèn)的存儲(chǔ)器。在傳統(tǒng)的存儲(chǔ)器體系結(jié)構(gòu)中,單個(gè)操作數(shù)(例如64位整數(shù)或浮點(diǎn)操作數(shù))作為整體被提取。在完成地址解碼之后,通過(guò)讀端口讀取全部位,讀端口必需緩存,從而在存儲(chǔ)器中操作數(shù)大小的整個(gè)寬范圍內(nèi)緩沖使能讀出。在TLSA體系結(jié)構(gòu)中,在發(fā)生地址解碼之后,在與前一個(gè)切片之間具有延時(shí)的跟隨切片的延時(shí)模型上發(fā)生數(shù)據(jù)讀出和/或?qū)懭?。這個(gè)模型的優(yōu)點(diǎn)在于,當(dāng)無(wú)需立即解碼并驅(qū)動(dòng)整個(gè)數(shù)據(jù)寬度時(shí),該模型能夠快速響應(yīng)存儲(chǔ)器。
[0096]圖21表示利用數(shù)據(jù)切片之間延時(shí)的具有轉(zhuǎn)置/移位單元的TLSA體系結(jié)構(gòu)。這個(gè)優(yōu)點(diǎn)允許更短的時(shí)間來(lái)產(chǎn)生早期結(jié)果切片和/或更少的路由/面積來(lái)實(shí)現(xiàn)轉(zhuǎn)置/移位邏輯。在圖21中,構(gòu)造右移移位器來(lái)獲得以8位數(shù)字切片的32位操作數(shù)的延時(shí)到達(dá)。32位輸入的第一切片(數(shù)字)在時(shí)間Ttl到達(dá),而上一次切片在時(shí)間1+3(1到達(dá),其中d是一個(gè)MUX延遲。縱向顯示在右邊的位(O到5)表示移位次數(shù)(最大32,任何大于32的值產(chǎn)生零輸出,基本上全部數(shù)據(jù)被移出)。從來(lái)自移位器右側(cè)的第一低位數(shù)字到達(dá)開(kāi)始執(zhí)行。然后該單元等待下一個(gè)輸入數(shù)字到達(dá)。依賴于移位計(jì)數(shù)值的位3的值,將數(shù)字中的一個(gè)數(shù)字選到更低的數(shù)字位置,這樣將判斷該數(shù)目將右移8位。然后,下一個(gè)最高有效位到達(dá),并且選擇該新數(shù)字,或者利用移位計(jì)數(shù)值中的下一位,傳遞在上面的復(fù)用器級(jí)中選擇的數(shù)據(jù)等等。任何移位計(jì)數(shù)值零移出的復(fù)用器位置將對(duì)其輸出實(shí)現(xiàn)零負(fù)載。當(dāng)最后一個(gè)數(shù)字到達(dá)時(shí),它通過(guò)最小數(shù)量的復(fù)用器級(jí),這樣將相對(duì)于前一個(gè)數(shù)字具有最小延遲“d”,從而啟動(dòng)上一個(gè)數(shù)字對(duì)輸出的快速傳播。
[0097]左移移位器可用關(guān)于垂線對(duì)稱的圖21的結(jié)構(gòu)來(lái)構(gòu)造,其中左切片具有較多復(fù)用器棧,右切片具有較少的復(fù)用器棧。最高有效數(shù)字經(jīng)過(guò)最小數(shù)目的復(fù)用器級(jí)。
[0098]切片結(jié)構(gòu)通用單元可以是類似于圖10A-10B所述的一個(gè)通用單元。它采用相同的切片體系結(jié)構(gòu)技術(shù)(TLSA)和/或細(xì)粒異步原理。它在每一個(gè)通用單元內(nèi)部執(zhí)行全部功能/運(yùn)算。這意味著每個(gè)通用單元能夠執(zhí)行加法、乘法、移位、轉(zhuǎn)置等。執(zhí)行這種通用功能具有低延遲,其方法是以延遲方式每次處理一個(gè)單獨(dú)的切片。它也可以處理浮點(diǎn)和整型數(shù)據(jù)。通用單元原理通過(guò)上述思想變得更為清晰,但是它通過(guò)簡(jiǎn)化調(diào)度并將機(jī)器吞吐量利用到極限從而實(shí)現(xiàn)了重要的優(yōu)點(diǎn)。在常規(guī)的體系結(jié)構(gòu)中,分離的單元用于執(zhí)行每個(gè)運(yùn)算或功能。它們共享相同的執(zhí)行端口。因此,當(dāng)一個(gè)單元被使用時(shí),其他單元沒(méi)有被使用。此外,傳統(tǒng)體系結(jié)構(gòu)中的延時(shí)是變化的,使得調(diào)度器調(diào)度它們很難。與此形成對(duì)比的是,在這個(gè)通用單元中,對(duì)于整個(gè)單元延遲被統(tǒng)一,并且調(diào)度器可看見(jiàn)通用單元的對(duì)稱實(shí)例。
[0099]每個(gè)通用單元可以執(zhí)行不同的執(zhí)行單元功能,比如乘法器、加法器、移位器等等。另外,這些切片有可能具有不同的數(shù)據(jù)大小。在這個(gè)特定示例中,每個(gè)切片的數(shù)據(jù)寬度大于前一個(gè)切片的數(shù)據(jù)寬度。這種加法器結(jié)構(gòu)允許切片樹(shù)執(zhí)行多操作數(shù)加法、乘法、乘累積、差分求和等。復(fù)用器(未在圖中顯示)對(duì)齊/轉(zhuǎn)置/移位輸入或中間輸出,從而利用加法器/復(fù)用器的通用結(jié)構(gòu)獲得所需的運(yùn)算,包括移位和轉(zhuǎn)置運(yùn)算。布斯單元/位乘單元1002被加到加法器,從而啟用乘法。增加其他具體的邏輯、狀態(tài)、存儲(chǔ)器或LUT元來(lái)提供擴(kuò)展功能。
[0100]UUM體系結(jié)構(gòu)可以利用已披露的TLSA技術(shù)進(jìn)行時(shí)間切片。構(gòu)建通用單元的其他方法是將其配置為浮點(diǎn)乘累積單元(MAC)。用于建立這個(gè)單元的功能模塊是乘法器、右移移位器、加法器和左移移位器。這種結(jié)構(gòu)在圖22中公開(kāi)。通用單元可以利用這種結(jié)構(gòu)來(lái)執(zhí)行構(gòu)造FP-MAC的這些功能中任一功能或這些功能的組合。
[0101]已在上文中描述了上述功能中的每一個(gè),因此可以分別作為TLSA結(jié)構(gòu)實(shí)現(xiàn),然后合并起來(lái)作為浮點(diǎn)乘累加TLSA結(jié)構(gòu)。這種結(jié)構(gòu)還可以作為連續(xù)切片的ALU或后面乘以ALU或移位等。
[0102]本發(fā)明的一個(gè)實(shí)施例涉及具有計(jì)算機(jī)可讀介質(zhì)的計(jì)算機(jī)存儲(chǔ)產(chǎn)品,其上具有用于執(zhí)行各種計(jì)算機(jī)實(shí)現(xiàn)的運(yùn)算的計(jì)算機(jī)代碼。這種介質(zhì)和計(jì)算機(jī)代碼可以是為本發(fā)明目的而專門設(shè)計(jì)和構(gòu)建的,或者是計(jì)算機(jī)軟件領(lǐng)域技術(shù)人員公知的并可以獲得的。計(jì)算機(jī)可讀介質(zhì)的實(shí)例包括但不限于:諸如硬盤、軟盤和磁帶之類的磁介質(zhì);諸如CD-ROM、DVD和全息裝置之類的光學(xué)介質(zhì);磁光介質(zhì);以及專門配置為存儲(chǔ)和執(zhí)行程序代碼的硬件設(shè)備,比如專用集成電路(ASIC)、可編程邏輯器件(PLD)以及ROM及RAM設(shè)備。計(jì)算機(jī)代碼的實(shí)例包括機(jī)器代碼,諸如編譯器產(chǎn)生的機(jī)器代碼,以及由計(jì)算機(jī)利用解釋器執(zhí)行的包含高階代碼的文件。例如,本發(fā)明的一個(gè)實(shí)施例可利用Java、C++或其他的面向?qū)ο蟮某绦蛟O(shè)計(jì)語(yǔ)言和開(kāi)發(fā)工具來(lái)實(shí)現(xiàn)。本發(fā)明的另一個(gè)實(shí)施例將以硬線電路代替機(jī)器執(zhí)行軟件指令來(lái)實(shí)現(xiàn)或以硬線電路結(jié)合機(jī)器執(zhí)行軟件指令來(lái)實(shí)現(xiàn)。
[0103]以上描述僅用于解釋的目的,采用了特定的術(shù)語(yǔ)來(lái)提供對(duì)本發(fā)明的透徹理解。然而顯而易見(jiàn)的是,對(duì)于本領(lǐng)域的技術(shù)人員而言,無(wú)需這些具體的細(xì)節(jié)也能夠?qū)崿F(xiàn)本發(fā)明。因此,本發(fā)明的上述具體實(shí)施例的描述僅是出于解釋說(shuō)明的目的。它們不意味著是詳盡的,或者將本發(fā)明限制為已公開(kāi)的精確形式;很明顯,可以對(duì)上述教誨進(jìn)行各種各樣的修改和變更。為了最佳地解釋本發(fā)明及其實(shí)際應(yīng)用的原理才選擇和描述了上述的實(shí)施例,因此它們使得本領(lǐng)域的其他技術(shù)人員能夠最優(yōu)地利用本發(fā)明并且具有各種修改的各種實(shí)施例適用于特定用途。本發(fā)明的范圍由所附權(quán)利要求書(shū)及其等效內(nèi)容來(lái)界定。
【權(quán)利要求】
1.一種處理器,包括: 執(zhí)行單元矩陣,包括第一行執(zhí)行單元和第二行執(zhí)行單元,其中,所述第一行執(zhí)行單元并行地操作并且所述第二行執(zhí)行單元并行地且依賴于所述第一行執(zhí)行單元進(jìn)行操作; 具有多個(gè)寄存器分段的寄存器文件,用于存儲(chǔ)指令矩陣結(jié)果,用于由所述執(zhí)行單元矩陣進(jìn)行隨后處理,其中,所述指令矩陣的每一個(gè)指令矩陣包括由所述第一行執(zhí)行單元的執(zhí)行單元的子集并行執(zhí)行的第一行指令以及由所述第二行執(zhí)行單元的執(zhí)行單元的子集執(zhí)行的第二行指令,其中,所述寄存器文件對(duì)于不同的執(zhí)行模式可配置,所述寄存器文件包括: 形成單個(gè)寄存器文件的所述多個(gè)寄存器分段,其中,每一個(gè)寄存器分段存儲(chǔ)形成超級(jí)指令矩陣的多個(gè)指令矩陣的單指令多數(shù)據(jù)(SIMD)指令或多指令多數(shù)據(jù)(MIMD)指令的源和結(jié)果的一個(gè)字的段; 形成具有單獨(dú)的寄存器狀態(tài)的單獨(dú)的獨(dú)立寄存器文件的所述多個(gè)寄存器分段,用于支持分離的線程的同時(shí)處理,其中,每一個(gè)指令矩陣與分離的線程和分離的寄存器文件分段相關(guān)聯(lián);并且 形成單個(gè)線程寄存器文件的所述多個(gè)寄存器分段,其中,在所述寄存器文件的多個(gè)分段中復(fù)制寄存器分段,以存儲(chǔ)從單個(gè)線程指令序列動(dòng)態(tài)發(fā)出的同時(shí)執(zhí)行的非依賴的指令矩陣的結(jié)果。
2.如權(quán)利要求1所述的處理器,其中,所述指令矩陣由運(yùn)行時(shí)系統(tǒng)形成。
3.如權(quán)利要求1所述的處理器,其中,所述指令矩陣由硬件形成。
4.如權(quán)利要求1所述的處理器,其中,所述指令矩陣由編譯器形成。
5.如權(quán)利要求1所述的處理器,配置為處理指令矩陣數(shù)目以識(shí)別矩陣依賴性并且執(zhí)行指令矩陣之間的分?jǐn)?shù)板依賴性分析。
6.如權(quán)利要求1所述的處理器,配置為訪問(wèn)副本寄存器文件的多個(gè)寄存器分段。
7.如權(quán)利要求1所述的處理器,配置為在副本寄存器文件的不同寄存器分段中存儲(chǔ)指令矩陣結(jié)果。
8.如權(quán)利要求1所述的處理器,配置為將用于每一個(gè)指令矩陣的指令結(jié)果和源操作數(shù)的寄存器指定為組。
9.如權(quán)利要求1所述的處理器,配置為使用在每一個(gè)指令矩陣的固定位置中列出的源和目的地來(lái)讀取指令矩陣操作數(shù),而不管操作碼。
10.如權(quán)利要求9所述的處理器,配置為以列出的源和目的地為基礎(chǔ)來(lái)確定指令矩陣之間的依賴性,而不管操作碼。
11.如權(quán)利要求1所述的處理器,其中,所述執(zhí)行單元矩陣支持浮點(diǎn)、整數(shù)、單指令多數(shù)據(jù)(SMD)和多指令多數(shù)據(jù)(MMD)操作。
12.如權(quán)利要求1所述的處理器,其中,所述寄存器文件具有通過(guò)將每一個(gè)執(zhí)行塊結(jié)果與矩陣緩沖器存儲(chǔ)器條目相關(guān)聯(lián)來(lái)在不增加端口數(shù)目的情況下支持并行塊寫(xiě)入的層次。
13.如權(quán)利要求1所述的處理器,進(jìn)一步包括使用矩陣數(shù)目以跟蹤寄存器參考的調(diào)度器。
14.如權(quán)利要求13所述的處理器,其中,將矩陣結(jié)果的位置傳輸?shù)较木仃囈宰R(shí)別所述消耗矩陣的源寄存器在所述多個(gè)寄存器分段中的位置。
15.如權(quán)利要求1所述的處理器,其中,執(zhí)行單元的子集形成執(zhí)行塊,每一個(gè)執(zhí)行塊配置為執(zhí)行操作的公共集。
16.如權(quán)利要求15所述的處理器,其中,每一個(gè)執(zhí)行塊具有相同的處理延遲。
17.如權(quán)利要求15所述的處理器, 其中,每一個(gè)執(zhí)行塊是到調(diào)度器的對(duì)稱實(shí)例。
【文檔編號(hào)】G06F9/38GK103646009SQ201310589048
【公開(kāi)日】2014年3月19日 申請(qǐng)日期:2007年4月12日 優(yōu)先權(quán)日:2006年4月12日
【發(fā)明者】M·A·阿卜杜拉 申請(qǐng)人:索夫特機(jī)械公司