專利名稱:單指令多數(shù)據(jù)處理器結(jié)構(gòu)中的互連的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及SIMD(單指令多數(shù)據(jù))處理器結(jié)構(gòu)中的互連。
背景技術(shù):
多媒體應用正在增長的復雜性不斷地導致需要更大的計算性能。在這點上,已經(jīng)開發(fā)了通用的CPU和DSP(中央處理單元和數(shù)字信號處理器),通過使用媒體加速器和任務級別的并行性來使用并行處理。
然而,此種媒體加速器僅努力增加了對于與在實現(xiàn)高性能的傳統(tǒng)CPU結(jié)構(gòu)的限制的克服。因此,該解決方案導致每單位運算較高的能量消耗。一種潛在地更成功的方法開發(fā)了可以用來提出功率有效結(jié)構(gòu)的全數(shù)據(jù)并行性。一種此種結(jié)構(gòu)是Xetal(例如,參見比利時根特的ACIVS 2002會議的“Smart CamerasArchitectural Challenges”),基于單指令多數(shù)據(jù)(SIMD)處理范例。該范例由于高度并行性而保持數(shù)據(jù)的局域性,并且允許共享諸如指令和地址解碼器之類的資源,這兩者對于減小功率消耗都是重要的。
圖1是示出了SIMD結(jié)構(gòu)的方框圖。結(jié)構(gòu)1包括處理元件陣列10,包括多個處理元件PE-0、…、PE-N。處理元件PE-0至PE-N從輸入線路存儲器12接收數(shù)據(jù),所述輸入線路存儲器12本身經(jīng)由輸入預處理單元40接收數(shù)據(jù)3。SIMD結(jié)構(gòu)1還包括工作存儲器陣列14,可操作地分為存儲器部分。每一個存儲器部分與處理元件陣列10中的處理元件的具體的一個相關(guān)聯(lián)。陣列10中的處理元件也能夠向工作存儲器陣列14傳輸數(shù)據(jù)以及從工作存儲器陣列14接收數(shù)據(jù),以便根據(jù)由處理元件接收到的指令來處理所述數(shù)據(jù)。將輸出線路存儲器單元16配置用于經(jīng)由輸出后處理單元50來輸出數(shù)據(jù)。
陣列10由根據(jù)在程序存儲器30中存儲的程序操作的全局控制處理器20控制??刂铺幚砥?0操作以根據(jù)檢索到的程序向處理元件提供指令。
輸入線路存儲器單元12提供輸入數(shù)據(jù)的串行-并行轉(zhuǎn)換,同時輸出線路存儲器單元14提供輸出數(shù)據(jù)的并行-串行轉(zhuǎn)換。在視頻處理應用中,輸出通道可以配置有串行處理器(50)以從視頻幀中感興趣的預定區(qū)域中提取統(tǒng)計信息。該信息可以用于諸如自動白平衡和曝光時間控制之類的自適應視頻處理。
SIMD結(jié)構(gòu)(和類似的并行處理機構(gòu))中的一個重點在于處理元件之間的互相通信的程度。通信通道的數(shù)目越多,確定信號處理算法的執(zhí)行效率越高。象濾波一樣的算法包含在相鄰數(shù)據(jù)元件的范圍內(nèi)的基本卷積操作,并且受益于處理器-處理器通信通道。
假設每個PEN個數(shù)據(jù)元件的互連級別,(針對大多數(shù)圖像處理內(nèi)核N≥3),那么為了以最小等待時間存取所有N個數(shù)據(jù)元件,PE要求N個通信通道。然后將需要N到1開關(guān)(多路復用器)將N個通道之一與PE輸入相連。圖2示出了從6個相鄰數(shù)據(jù)點存取數(shù)據(jù)的PE的邏輯通信路徑。應該易于理解的是,這將導致PE和存儲器之間互連的非常復雜的網(wǎng)絡。
實際上,通信的程度越大,設計中的處理元件的數(shù)目越高,物理設計按照設計時間變得越復雜,所述設計時間用于找到相對于硅面積和性能的最佳互連拓撲。減小互連網(wǎng)絡的復雜度是SIMD結(jié)構(gòu)中的一個重要難題。無法成功地處理該難題,一般阻止大規(guī)模并行系統(tǒng)有效。
因此,需要使能夠進行PE到PE通信以及節(jié)省成本和使用的PE到存儲器通信的方法。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面,提出了一種單指令多數(shù)據(jù)(SIMD)處理器,包括處理元件陣列,包括多個處理元件;存儲器陣列,可操作地分為存儲器部分,每一個存儲器部分分配給具體的處理元件,其特征在于第一處理元件可操作用于存取分配給第一處理元件的一部分存儲器陣列,以及用于存取分配給第二處理元件的一部分存儲器陣列,使用表示分配給將要進行存取的存儲器位置的處理元件的標識值進行所述存取。
圖1是示出了SIMD處理結(jié)構(gòu)的方框圖。
圖2是示出了在圖1的結(jié)構(gòu)中內(nèi)部的存儲器傳送部分的方框圖。
圖3和圖4示出了具體實現(xiàn)本發(fā)明的一個方面的交錯存取技術(shù)。
圖5示出了用于具體實現(xiàn)本發(fā)明的交叉存取技術(shù)的PE數(shù)字存儲器和控制值。
圖6示出了圖3至圖5技術(shù)的具體實現(xiàn);以及圖7示出了具體實現(xiàn)本發(fā)明的另一種技術(shù)。
具體實施例方式
本發(fā)明的實施例可以提供一種SIMD結(jié)構(gòu)和技術(shù),可以減輕在前考慮的結(jié)構(gòu)和技術(shù)的缺點。具體地,本發(fā)明的實施例涉及經(jīng)由工作線路存儲器陣列14使能夠進行PE至PE的數(shù)據(jù)內(nèi)部通信。本發(fā)明的實施例將參考圖1描述,并且還參考視頻處理,其中將處理元件用于產(chǎn)生針對顯示設備上的像素的顏色和其他視頻值。應該易于理解的是,在該公開中描述的處理技術(shù)可以應用于不同于視頻數(shù)據(jù)的數(shù)據(jù)。
存在用于限制PE的數(shù)目小于每條線路的像素數(shù)目的原因,例如為了硅效率,或當輸入數(shù)據(jù)實體為2×2像素或更大時。類似的情況也可以由利用比全并行SIMD結(jié)構(gòu)中PE更少的PE實現(xiàn)計算命令的應用中引起。
本發(fā)明的實施例使用“存儲器交錯存取”技術(shù),可以減小n至1開關(guān)以及相關(guān)互連復雜性到簡單的3至1開關(guān)。此種3至1開關(guān)可以使用諸如在WO2002/093905中公開的交錯布局技術(shù)來具體實現(xiàn)。圖3和圖4示出了具體實現(xiàn)本發(fā)明的交錯存取像素存儲技術(shù),分別針對當PE的數(shù)目是每線路(line)像素的一半和四分之一的情況。用于PE的陣列的接口由輸入和輸出數(shù)據(jù)線路示出。在兩個圖中,顏色(紅色(R)、綠色(G)、和藍色(B))是完整的圖像線路,其像素已經(jīng)被適當?shù)胤胖脼橐訮E的數(shù)目進行分割的列。
為了能夠進行PE至PE相鄰通信,工作線路存儲器陣列14使用現(xiàn)有的地址機制,而無需任何外部的互連成本。如從圖3所見,最簡單的情況是當處理元件的數(shù)目是像素數(shù)目的一半,可以看出存儲器陣列部分140、...、149分配有兩組三個像素值。每一個像素具有紅色、綠色和藍色值(用R、G和B表示)。在圖3中,在存儲器陣列中表示像素數(shù)目。因此,針對像素0的值由R0、G0和B0給出,并且針對像素1的值由R1、G1和B1給出,等等。將針對像素0和1的像素值分配給第一存儲器陣列部分140。類似地,將剩余的工作線路存儲器陣列部分分配給各對像素值。
圖4示出了當處理元件的數(shù)據(jù)是將要顯示的像素的四分之一時的情況。因此,將每一個工作線路存儲器陣列部分140、...、149針對四個像素的每一個來分配紅色、綠色和藍色值。圖4示出了可以實現(xiàn)的方式。
針對能夠?qū)υ诜峙浣o相鄰(第二)處理元件的存儲器部分中存儲的數(shù)據(jù)進行存取的第一處理元件,相對于從其中檢索數(shù)據(jù)的、分配給第一處理元件的存儲器部分,使用表示存儲器部分的標識值來實現(xiàn)存儲器存取。
圖5示出了如何通過適當?shù)臉俗R在工作存儲器陣列14之內(nèi)實現(xiàn)PE至PE的通信。使用簡單的PE任務,將存儲器位置復制到PE數(shù)字存儲器作為示例。在兩個像素交錯存取的情況下,如(a)所示,將標識(0,1)用于存取分配給PE的像素,而將(-2,-1)和(2,3)用于存取分別為左邊和右邊PE而分配的像素??梢詫⑾嗤牟襟E延伸到與(b)中用于4個像素交錯存取所示的較高的交錯存取程度。
圖6示出了在圖3、圖4和圖5中所述技術(shù)的一種可能的實現(xiàn)。每一個PE(PEN-1、PEN和PEN+1)具有關(guān)聯(lián)的多路復用器MN-1、MN和MN+1。多路復用器相連以從分配給相關(guān)處理元件的存儲器陣列部分接收數(shù)據(jù),并且還從相鄰的(左邊和右邊)的處理元件存儲器陣列部分接收數(shù)據(jù)。在圖6中,可以看出,PEN能夠從其自己的存儲器部分14N、并且從分別分配給左邊PE(PEN-1)和右邊PE(PEN+1)的存儲器部分14N-1和14N+1接收數(shù)據(jù)。使用如圖5所示的值,從而可以通過各個多路復用器選擇正確的數(shù)據(jù)路徑。在圖5中,標記為PE任務的列示出了示例數(shù)字存儲器值,并且標記為效果@PE10和效果@PE14的列示出了分別在處理元件10和14處檢索到的像素值。PE多路復用選擇列示出了如何控制PE多路復用器。
該存儲器交錯存取方法證實了當PE的數(shù)目比每條線路的數(shù)據(jù)元件的數(shù)目少整數(shù)因子時是有吸引力的。然而,如果存在許多PE作為每條線路的數(shù)據(jù)元件(當使用全并行SIMD機構(gòu)的情況下),沒有交錯存取可以進行,并且對于內(nèi)部PE通信沒有益處??梢詫⑾嗤募夹g(shù)成功地用于不同的特定標識值,例如(-1,0,1)。所述技術(shù)不局限于具體的視頻值。
幸運地,在SIMD結(jié)構(gòu)中的PE越多,時鐘速度越慢,因為算法負載保持相同??梢詫⒋溯^慢的速度用于實現(xiàn)時間分布通信接口,以提供必要的PE至PE通信?;舅枷朐谟谕ㄟ^在一個系統(tǒng)周期之內(nèi)進行N次左/右移位,使用N-移位器以將數(shù)據(jù)元件與適當?shù)腜E對齊。移位的最大允許數(shù)目(Nmax)取決于每一次移位所需的時間(tshift)、系統(tǒng)時鐘的周期(Tsyst)、以及PE執(zhí)行加載操作所花費的時間(tload)。
Nmax=[Tsyst-tload/tshift](1)該方法的一種可能實現(xiàn)如圖7所示。針對每一個處理元件和存儲器陣列部分,該實現(xiàn)包括多路復用器M和寄存器R。如圖7所示,PE1具有關(guān)聯(lián)的多路復用器M1,以及寄存器R1。將移位控制器103配置為控制多路復用器以及用于寄存器的時鐘信號。該時鐘信號(local_clock)由時鐘單元101提供。存儲器部分的輸出與和所述存儲器部分相關(guān)聯(lián)的多路復用器相連,并且與相連的多路復用器相連。因此,針對存儲器部分1(PE1),從存儲器部分D1輸出的數(shù)據(jù)與多路復用器M1相連。多路復用器的輸出與適當?shù)募拇嫫鱎1相連。當啟用時鐘信號CLK時,將針對寄存器R1的輸入從輸出Q1輸出到PE1。寄存器操作于傳統(tǒng)的方式。將每一個寄存器輸出反饋回相鄰的多路復用器,使得針對PE1的多路復用器M1從存儲器部分1(D1)和寄存器R0和R2的輸出來接收輸入。圖7的數(shù)據(jù)轉(zhuǎn)換單元的操作如下在第一時鐘周期期間,將基準地址處的數(shù)據(jù)加載到寄存器。緊接著,產(chǎn)生N個本地時鐘信號以執(zhí)行N次移位。移位方向和移位的數(shù)目由控制器來準備。緊接著,然后控制器通過啟用/禁用時鐘產(chǎn)生器來確定正確的操作。將本地時鐘的周期設定為允許正確的分級功能。
在其中PE的數(shù)目小于每條線路的數(shù)據(jù)元件的數(shù)目時,移位器和存儲器交錯存取技術(shù)可以進行組合,以使PE的存取范圍最大化。
基于移位器的方法限制加速區(qū)為IC的較小部分,從而節(jié)省了能量消耗,所述能量消耗是通過將所有的PE和全局互連加速以執(zhí)行許多移位復制操作以對齊數(shù)據(jù)元件來實現(xiàn)相同功能將需要的能量消耗。
基于移位器的方法原則上將輸入數(shù)據(jù)選擇多路復用器從PE移動到存儲器接口模塊。
因此,本發(fā)明的實施例能夠提供一種方法和技術(shù),能夠?qū)崿F(xiàn)節(jié)省成本且可實用的PE至PE以及PE至存儲器的通信。
權(quán)利要求
1.一種單指令多數(shù)據(jù)(SIMD)處理器(1),包括處理元件陣列(10),包括多個處理元件(PE0...PEN);存儲器陣列(14),可操作地劃分為多個存儲器部分(141...14N),將每一個存儲器部分分配給特定的處理元件,其特征在于第一處理元件(PEN)用于存取分配給第一處理元件的一部分存儲器陣列(14),以及用于存取分配給第二處理元件的一部分存儲器陣列,使用表示分配給將要進行存取的存儲器位置的處理元件的標識值進行所述存取。
2.如權(quán)利要求1所述的處理器,其中,所述標識值表示處理元件以及相關(guān)的一部分存儲器陣列中的地址。
3.如權(quán)利要求1所述的處理器,其中,所述標識值表示第二處理元件相對于第一處理元件的位置。
4.如前述任一項權(quán)利要求所述的處理器,還包括針對每一個處理元件的多路復用器,可用于選擇數(shù)據(jù)路徑,用于將數(shù)據(jù)傳送到相關(guān)的處理元件,從多個存儲陣列部分中選擇所述數(shù)據(jù)路徑。
5.如前述任一項權(quán)利要求所述的處理器,包括具有控制器和時鐘信號產(chǎn)生器的數(shù)據(jù)傳送單元;以及針對每一個處理元件的多路復用器和寄存器,所述寄存器與相關(guān)處理元件相連以提供數(shù)據(jù)項目,以及以從關(guān)聯(lián)的多路復用器接收數(shù)據(jù)項目,其中,所述多路復用器可用于根據(jù)標識值來選擇多個數(shù)據(jù)輸入之一。
6.一種用于在處理元件的SIMD陣列中的處理元件之間進行數(shù)據(jù)通信的方法,每一個所述處理元件可用于對在存儲器陣列中存儲的數(shù)據(jù)進行存取,所述方法包括將存儲器陣列的各個部分分配給陣列中的處理元件;針對陣列中的第一處理元件,使用表示存儲器陣列部分所分配的處理元件的標識值,來對分配給第一和第二處理元件的那部分存儲器陣列進行存取。
7.如權(quán)利要求6所述的方法,其中,使用多路復用器來選擇用于提供給相關(guān)處理單元的數(shù)據(jù)。
全文摘要
一種單指令多數(shù)據(jù)(SIMD)處理器(1),包括處理元件陣列(10),包括多個處理元件(PE
文檔編號G06F15/78GK101014948SQ200580030061
公開日2007年8月8日 申請日期2005年9月8日 優(yōu)先權(quán)日2004年9月9日
發(fā)明者安特內(nèi)·A·艾博, 雷·塞韋特, 理查德·P·克萊霍斯特 申請人:皇家飛利浦電子股份有限公司