元素選擇單元及其中的方法
【技術(shù)領(lǐng)域】
[0001] 本文的實施例涉及用于向量元素選擇的元素選擇以及其中的方法。另外的實施例 涉及包括元素選擇單元的加載存儲單元、包括元素選擇單元的內(nèi)存到內(nèi)存?zhèn)鬏斚到y(tǒng)、包括 元素選擇單元的向量處理器以及包括向量處理器的集成電路。
【背景技術(shù)】
[0002] 對于一些數(shù)字信號處理算法,在計算可開始之前必須聚集或組織輸入數(shù)據(jù)。例如, 當(dāng)從線性輸入向量中選擇數(shù)據(jù)元素的分散集合時,所選擇的數(shù)據(jù)元素可在計算能開始之前 聚集成后續(xù)數(shù)據(jù)元素的新線性輸出向量。這種類型的數(shù)據(jù)聚集或組織例如在3GPP長期演 進(jìn)(LTE)通信系統(tǒng)中的數(shù)據(jù)副載波的均衡處理中需要。LTE是使用正交頻分復(fù)用(OFDM)的 無線通信標(biāo)準(zhǔn)?;贠FDM的通信系統(tǒng)通過施加(逆)傅里葉變換有效地解調(diào)(或調(diào)制)某 個數(shù)量的射頻副載波。對于LTE,根據(jù)該模式,每秒存在12000或14000個OFDM符號。對于 20MHz帶寬載波,每個OFDM符號的1200個副載波中的每個副載波都包括調(diào)制符號。調(diào)制符 號例如可以是用于信道估計的用戶數(shù)據(jù)符號或?qū)ьl符號。將各種類型信息信道和信號映射 在這些副載波上可能相當(dāng)復(fù)雜并且分散。在進(jìn)行數(shù)據(jù)信道的均衡處理之前,從輸入OFDM符 號中提取一些接收器系統(tǒng)中的數(shù)據(jù)符號,并將數(shù)據(jù)符號級聯(lián)成新向量。示例接收器系統(tǒng)包 括在其上映射均衡處理的向量處理器。
[0003] 動態(tài)存儲器分配(DMA)經(jīng)常用于將數(shù)據(jù)元素拷貝到嵌入系統(tǒng)中。通常,DMA單元傳 輸數(shù)據(jù)元素的較粗粒度塊。表述"數(shù)據(jù)的較粗粒度塊"是指具有大小在范圍從數(shù)十字節(jié)到 數(shù)百萬字節(jié)的數(shù)據(jù)塊。數(shù)據(jù)塊越小,即,數(shù)據(jù)突發(fā)越短,控制和配置數(shù)據(jù)傳輸?shù)拈_銷將越大。 DMA單元經(jīng)常具有對于分散收集操作的支持,即,對于按順序執(zhí)行DMA配置的鏈接列表的支 持。選擇LTE中的資源元素,即,選擇例如32位的復(fù)雜字,對于DMA單元將是太細(xì)粒度。
[0004] 經(jīng)典數(shù)字信號處理器OSP)操作在標(biāo)量樣本粒度上。因此,它們在從存儲器加載 和向存儲器存儲上可能是非常有選擇的。進(jìn)一步說,在執(zhí)行計算處理時可進(jìn)行數(shù)據(jù)元素的 選擇。從而,不需要執(zhí)行將數(shù)據(jù)元素拷貝到臨時數(shù)據(jù)向量。然而,應(yīng)該指出,經(jīng)典DSP的可 選擇性,即標(biāo)量樣本粒度,可在信號處理軟件中增加復(fù)雜控制結(jié)構(gòu)。
[0005] 進(jìn)一步說,裝置一次加載和存儲一個選擇的標(biāo)量元素需要相當(dāng)長時間來聚集所有 選擇的數(shù)據(jù)元素。
[0006] 作為示例,假定LTE類別5接收器可用。LTE類別5接收器是在20MHz頻帶中支持 300兆位/秒的下行鏈路數(shù)據(jù)速率并具有多輸入多輸出(MIM0)接收器配置(并且因此具有 4個接收天線)的接收器。進(jìn)一步說,假定數(shù)據(jù)元素提取被映射到具有一個數(shù)據(jù)存儲器接 口的標(biāo)量DSP上。此類DSP然后為了此任務(wù)對于高達(dá)每秒134百萬指令進(jìn)行加載。對于加 載和存儲操作,處理器負(fù)載被計算為4接收天線*1200數(shù)據(jù)符號/OFDM符號/天線*14000 OFDM符號/秒*2流線型處理器周期/數(shù)據(jù)元素選擇。
[0007] 此外,為了選擇4接收器天線流的數(shù)據(jù)元素,還必須執(zhí)行從16信道估計流中選擇 數(shù)據(jù)元素。選擇模式具有與接收的符號流的數(shù)據(jù)元素選擇相同的選擇網(wǎng)格,并將導(dǎo)致高達(dá) 670 MIPS的處理器負(fù)載,這是相當(dāng)大的開銷,并且具有相當(dāng)長的等待時間。對于加載和存 儲操作,處理器負(fù)載被計算為16信道估計流*1200估計/OFDM符號/信道估計流*14000 OFDM符號/秒*2流線型處理器周期/數(shù)據(jù)元素選擇。
[0008] 向量DSP執(zhí)行數(shù)據(jù)元素向量上的運(yùn)算。重要種類的運(yùn)算是所謂的單指令多數(shù)據(jù) (SMD)運(yùn)算,該運(yùn)算借助于相同并行處理單元的陣列執(zhí)行多個輸入向量上的相同算術(shù)運(yùn) 算。SIMD運(yùn)算要求算法是可向量化的,意味著輸入數(shù)據(jù)元素應(yīng)該能夠作為相鄰數(shù)據(jù)元素的 向量進(jìn)行處理。通過可用硬件并行性,即并行處理單元,向量DSP能夠執(zhí)行SIMD運(yùn)算,其相 比由經(jīng)典非向量DSP提供的計算吞吐量提供了更高計算吞吐量。
[0009] 通常,向量DSP具有向量存儲器。從而,向量DSP可在一個指令中訪問后續(xù)數(shù)據(jù)元 素的向量。進(jìn)一步說,向量DSP經(jīng)常具有在其中存儲中間結(jié)果的向量寄存器文件,由此可減 少到向量存儲器的通信。而且,向量DSP要求向量存儲器可提供的高存儲器帶寬,使得加載 和/或存儲吞吐量可跟上計算吞吐量。
[0010] 向量DSP可具有對于向量內(nèi)的數(shù)據(jù)元素重新組織的一些支持。例如,混洗單元可 能是可用的,該混洗單元可用于按輸出數(shù)據(jù)元素選擇特定輸入數(shù)據(jù)元素?;煜催\(yùn)算函數(shù)可 基于具有絕對索引或相對距離的配置模式。
[0011] 能夠從向量存儲器加載和/或存儲P數(shù)據(jù)元素向量的向量處理器或類似裝置比具 有標(biāo)量加載接口和/或標(biāo)量存儲接口的裝置具有更高存儲器帶寬。對于以與存儲器系統(tǒng)相 同的吞吐量的數(shù)據(jù)元素選擇,向量處理器必須能夠執(zhí)行輸入數(shù)據(jù)元素的混洗,并將選擇的 數(shù)據(jù)元素聚集成一個或多個輸出向量。具有混洗單元、向量寄存器文件和對于基于掩碼的 元素選擇的支持的向量處理器可執(zhí)行這個任務(wù)。然而,因為選擇模式可以是動態(tài)的,例如, 如在LTE元素提取情況下,因此這些混洗和掩碼模式必須動態(tài)選擇或計算。
[0012] 在飛行中的混洗模式和掩碼模式計算給出了信號處理上的計算開銷。布爾數(shù)據(jù)類 型和混洗模式數(shù)據(jù)類型上的運(yùn)算必須由處理器支持。
[0013] 并不是所有處理器都支持模式計算。在一些向量處理器中,在編譯時必須定義混 洗模式。將所有可能模式硬編碼是不可能的。模式可被預(yù)先存儲并且查找。要指出,可能 模式的總數(shù)在一般情況下是向量中數(shù)據(jù)元素的數(shù)量的函數(shù)??赡苣J降目倲?shù)可被計算為 P*2 p,即,計算為旋轉(zhuǎn)偏移位置的數(shù)量(等于P)乘以可能掩碼向量的數(shù)量(等于2P),其中P 是向量中數(shù)據(jù)元素的數(shù)量。模式數(shù)量,因此還有所需的存儲內(nèi)存,隨著不斷增長的向量大小 而激增。模式表因此必須是使用情況相關(guān)的,以使它更加成本有效。這使模式表和查找過 程更復(fù)雜。
[0014] 從表中計算或加載混洗和掩碼模式給出了運(yùn)行時間開銷,其在某種程度上可在多 個流之間共享。此開銷例如與均衡任務(wù)的計算運(yùn)算不能是軟件流線型的。
[0015] W02006/033056描述了用于混洗運(yùn)算的微處理器裝置和方法。微處理器裝置包括 向量處理器架構(gòu),向量處理器架構(gòu)具有功能向量處理器單元,功能向量處理器單元包括用 于存儲多個索引向量的第一內(nèi)存部件和處理部件。功能向量處理器單元布置成接收要處理 的處理指令和至少一個輸入向量。第一內(nèi)存部件布置成按照處理指令給處理部件提供所述 多個索引向量之一,并且處理部件布置成響應(yīng)于所述指令生成至少一個輸出向量,至少一 個輸出向量按照所提供的一個索引向量將至少一個輸入向量的元素重新布置。功能向量處 理器單元進(jìn)一步包括預(yù)先處理部件,該預(yù)先處理部件布置成接收參數(shù),并根據(jù)所述參數(shù)處 理一個索引向量的元素,之后按照所處理的索引向量生成所述至少一個輸出向量。
[0016] 給向量處理器增加混洗電路以便支持?jǐn)?shù)據(jù)元素選擇,在所需的區(qū)域和功率方面是 代價高的。進(jìn)一步說,混洗電路是昂貴電路,因為在混洗電路中包括的兩輸入復(fù)用器的數(shù)量 隨著數(shù)據(jù)元素的數(shù)量P平方地縮放為(p-l)*p。然而要指出,完整混洗電路的區(qū)域受布線支 配,而在當(dāng)前的互補(bǔ)金屬氧化物半導(dǎo)體(CMOS)技術(shù)中受標(biāo)準(zhǔn)單元支配不是那么多。
【發(fā)明內(nèi)容】
[0017] 本文實施例的目的是提供一種改進(jìn)數(shù)據(jù)處理系統(tǒng)中的性能的辦法。
[0018] 根據(jù)本文實施例的第一方面,所述目的通過在元素選擇單元中用于向量元素選擇 的方法實現(xiàn)。元素選擇單元包括選擇器控制電路和選擇器數(shù)據(jù)路徑電路,該選擇器數(shù)據(jù)路 徑電路包括多層,每層包括多個復(fù)用器。
當(dāng)前第1頁
1 
2 
3