欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種處理器的硬件循環(huán)處理方法和系統(tǒng)與流程

文檔序號(hào):12462866閱讀:246來源:國知局
一種處理器的硬件循環(huán)處理方法和系統(tǒng)與流程

本發(fā)明涉及硬件循環(huán)處理技術(shù),尤其涉及一種針對處理器或DSP取址級架構(gòu)進(jìn)行改進(jìn)的硬件循環(huán)處理技術(shù)。



背景技術(shù):

在處理器或DSP中,循環(huán)是一種很常見的程序類型?,F(xiàn)有技術(shù)中,通常利用普通的跳轉(zhuǎn)指令并配合使用通用寄存器來實(shí)現(xiàn)循環(huán)處理。但是這種處理方式在循環(huán)體的最后,需要使用額外的指令來判斷循環(huán)是否結(jié)束,如果沒有結(jié)束還需要使用跳轉(zhuǎn)指令跳轉(zhuǎn)到循環(huán)體的第一條指令,這樣會(huì)給循環(huán)體帶來不少的附加周期。尤其在循環(huán)嵌套的情況下,運(yùn)算效率會(huì)因此大大受損。

為了提高循環(huán)的執(zhí)行效率,目前,有些處理器或DSP中開始使用硬件循環(huán)的方式對循環(huán)進(jìn)行處理。即通過硬件來自動(dòng)判斷循環(huán)是否結(jié)束,并跳轉(zhuǎn)到循環(huán)體的第一條指令。這種方式雖然不再使用額外的判斷指令以及跳轉(zhuǎn)指令,但是由于程序存儲(chǔ)器存在延時(shí),所以每次從循環(huán)體最后一條指令跳轉(zhuǎn)至循環(huán)體第一條指令的時(shí)候,仍需要額外的等待周期,才能讀取到循環(huán)體的第一條指令。在這種情況下,如果循環(huán)體中指令比較少,這些額外的等待周期依舊會(huì)對循環(huán)的效率產(chǎn)生嚴(yán)重影響。

針對現(xiàn)有技術(shù)的問題,本發(fā)明公開的處理器或DSP的硬件循環(huán)處理方法和系統(tǒng),可以消除每次從循環(huán)體最后一條指令跳轉(zhuǎn)至循環(huán)體第一條指令時(shí)的額外的等待周期,實(shí)現(xiàn)循環(huán)的零延時(shí)跳轉(zhuǎn),能夠大幅度提高循環(huán)的效率。并且可以由此減少程序存儲(chǔ)器的讀取次數(shù),降低處理器或DSP功耗。



技術(shù)實(shí)現(xiàn)要素:

為了解決現(xiàn)有技術(shù)存在的不足,本發(fā)明的目的在于提供一種處理器的硬件循環(huán)處理方法及系統(tǒng)。

首先,為實(shí)現(xiàn)上述目的,本發(fā)明提出一種處理器硬件循環(huán)處理系統(tǒng)。系統(tǒng)包括程序存儲(chǔ)器、取指單元、循環(huán)緩存、選擇模塊、譯碼單元和執(zhí)行單元;

所述程序存儲(chǔ)器連接取指單元的輸入端,所述取指單元的指令輸出端連接選擇模塊的一個(gè)輸入端,選擇模塊的另一個(gè)輸入端連接循環(huán)緩存的輸出端;選擇模塊的輸出端連接譯碼單元的輸入端;所述譯碼單元的輸出端連接執(zhí)行單元的輸入端;

所述取指單元還與譯碼單元的第一控制信號(hào)端連接,所述循環(huán)緩存還與譯碼單元的第二控制信號(hào)端連接。

進(jìn)一步的,上述系統(tǒng)中,所述譯碼單元的第一控制信號(hào)端用于在譯碼單元未讀取到循環(huán)節(jié)點(diǎn)指令時(shí),控制所述取指單元通過選擇模塊向譯碼單元)輸出需要進(jìn)行譯碼的下一條指令;同時(shí),所述譯碼單元在讀取到新循環(huán)的第一條指令后,還通過第一控制信號(hào)端控制所述取指單元通過選擇模塊同步向循環(huán)緩存輸出新循環(huán)體的第一條至第N條指令;所述循環(huán)緩存用于接收新循環(huán)體的前N條指令,并將接受的N條指令壓入堆棧進(jìn)行存儲(chǔ);其中,所述的循環(huán)節(jié)點(diǎn)指令指循環(huán)進(jìn)行的過程中,循環(huán)體中的最后一條指令;所述的循環(huán)緩存接收的新循環(huán)體內(nèi)指令的條數(shù)N=min{n,m}, n為循環(huán)體中指令條數(shù),m為指令從程序存儲(chǔ)器到達(dá)譯碼單元所經(jīng)歷的時(shí)鐘周期數(shù)減1;

所述譯碼單元的第二控制信號(hào)端用于在譯碼單元讀取到循環(huán)節(jié)點(diǎn)指令時(shí),控制循環(huán)緩存通過選擇模塊依次向譯碼單元輸出當(dāng)前循環(huán)體的第一條至第N條指令。

這樣,可以根據(jù)譯碼單元需要進(jìn)行譯碼的指令,通過選擇模塊根據(jù)該條指令在循環(huán)體中所處的位置,判斷是直接從循環(huán)緩存中讀取指令,還是需要一級一級的從程序存儲(chǔ)器中讀取指令。控制循環(huán)體內(nèi)部的前N條指令直接通過取指級的循環(huán)緩存出輸至譯碼單元,從而避免循環(huán)中,每次從程序存儲(chǔ)器中一級一級向譯碼單元傳遞指令而造成的額外的等待周期。本發(fā)明在實(shí)現(xiàn)硬件循環(huán)的零延時(shí)跳轉(zhuǎn)的同時(shí),也減少了對程序存儲(chǔ)器的訪問,從而降低功耗。

進(jìn)一步的 ,上述系統(tǒng)中,所述的循環(huán)緩存為由兩個(gè)以上指令緩存構(gòu)成的堆棧,堆棧的層數(shù)為指令緩存的個(gè)數(shù),指令緩存的個(gè)數(shù)為所述處理器所支持的循環(huán)嵌套的層數(shù),堆棧的讀取方式為先進(jìn)后出。

這里,通過堆棧,將最外一層循環(huán)所對應(yīng)的N條指令壓在堆棧的最底層,將嵌套的最內(nèi)一層是循環(huán)內(nèi)的N條指令置于堆棧的頂層。讀取指令時(shí),根據(jù)循環(huán)的結(jié)構(gòu),先完成對嵌套的最內(nèi)一層循環(huán)處理完畢后,再對其外一層循環(huán)的指令進(jìn)行處理。通過堆棧先進(jìn)后出的讀取方式,使得循環(huán)的每一層都按照其所處的嵌套的位置進(jìn)行處理。不至于出現(xiàn)運(yùn)算順序上的錯(cuò)誤。

進(jìn)一步的,上述系統(tǒng)中,所述的指令緩存為一個(gè)大小為N的存儲(chǔ)器,所述的每一個(gè)存儲(chǔ)器中按照地址從0至N-1的順序依次存儲(chǔ)對應(yīng)循環(huán)體中的第一條至第N條指令。

上述系統(tǒng)中,所述的循環(huán)緩存中的存儲(chǔ)器為大小為N條指令長度的RAM(Random-Access Memory,隨機(jī)存取存儲(chǔ)器)或寄存器。

其次,為實(shí)現(xiàn)上述目的,還提出一種處理器流水線取指級處理方法,本發(fā)明所提供的取指級方法用于替換現(xiàn)有流水線中取指級的處理方法。本方法中,取指級對上一級輸入的每一條指令按照以下步驟處理:

第一步,判斷從上一級輸入的指令是否為新循環(huán)體的第一條指令,若是,則由取指級依次存儲(chǔ)并同步向下一級輸出當(dāng)前循環(huán)體中的第一至第N條指令;否則,跳轉(zhuǎn)至第三步;

這一步的判斷由位于取指級下一級的譯碼單元進(jìn)行,并通過譯碼單元的兩個(gè)控制信號(hào)端分別向去址單元和循環(huán)緩存發(fā)送控制信號(hào)而實(shí)現(xiàn)。

其中,N=min{n,m}, n為當(dāng)前循環(huán)體中指令的條數(shù),m為處理器流水線中從讀取存儲(chǔ)器中到譯碼級所需要經(jīng)歷的時(shí)鐘周期數(shù)減1;

第二步,若指令是否為循環(huán)體的最后一條指令,且循環(huán)還未結(jié)束,則將指級內(nèi)存儲(chǔ)的當(dāng)前循環(huán)體中的第一至第N條指令依次向下一級輸出后,等待接收到上一級輸入新指令并跳轉(zhuǎn)至第一步;否則,跳轉(zhuǎn)至第三步;

第三步,由取指級將其從上一級得到的指令向下一級輸出后,結(jié)束本輪取指級處理流程。

取指級的一輪處理流程指向其下一級輸出一條指令的過程,對應(yīng)處理器的一個(gè)時(shí)鐘周期。取指級每接收到一條指令都按照上述的步驟進(jìn)行處理。

進(jìn)一步的,上述方法中,所述的取指級包括一個(gè)深度為所處處理器所支持的循環(huán)嵌套的層數(shù)的堆棧,由所述堆棧按照如下步驟完成第一步中存儲(chǔ)當(dāng)前循環(huán)體中的第一至第N條指令的操作:

步驟101,判斷指令是否為新循環(huán)體的第一條指令,若是,則將當(dāng)前(堆棧中)存儲(chǔ)的所有的循環(huán)體的指令壓向下一層存儲(chǔ)單元(即壓向堆棧的下一層)后,跳轉(zhuǎn)至步驟102;否則,直接跳轉(zhuǎn)至步驟102;

步驟102,在最上一層存儲(chǔ)單元中(即堆棧的最上一層中),按照地址從0至N-1的順序依次存儲(chǔ)當(dāng)前循環(huán)體中的第一條至第N條指令。

同時(shí),上述方法中,所述的堆棧按照如下步驟完成上述第二步中輸出取指級內(nèi)存儲(chǔ)的當(dāng)前循環(huán)體中的第一至第N條指令的操作:

步驟201,判斷指令是否為當(dāng)前循環(huán)體的第N條指令,若是,且循環(huán)體已經(jīng)結(jié)束,則將當(dāng)前堆棧中存儲(chǔ)的所有的循環(huán)體的指令提向上一層存儲(chǔ)單元(即向堆棧的上方上提一層)后,跳轉(zhuǎn)至步驟202;否則,直接跳轉(zhuǎn)至步驟202;

步驟202,從最上一層存儲(chǔ)單元(即堆棧的最上一層)中,按照地址從0至N-1的順序依次輸出當(dāng)前循環(huán)體中的第一條至第N條指令。

有益效果

本發(fā)明,在原有的DSP的取指單元中增加了循環(huán)緩存,由循環(huán)緩存存儲(chǔ)并輸出對應(yīng)循環(huán)體中的前N條指令。通過這樣的方式,消除循環(huán)處理過程中,每次從循環(huán)體最后一條指令跳轉(zhuǎn)至循環(huán)體第一條指令時(shí),由于程序存儲(chǔ)器讀出數(shù)據(jù)的延時(shí)而造成的額外的等待周期,從而實(shí)現(xiàn)硬件循環(huán)的零延時(shí)跳轉(zhuǎn)。同時(shí),由于循環(huán)緩存的設(shè)計(jì),有效的減少了處理器中對程序存儲(chǔ)器的訪問,從而降低功耗。

本發(fā)明所述的方法和處理器系統(tǒng)中,在程序首次進(jìn)入循環(huán)后,將該循環(huán)體中的前N條指令存入該層循環(huán)對應(yīng)的循環(huán)緩存中。存入循環(huán)緩存的指令個(gè)數(shù)N等于從發(fā)出程序存儲(chǔ)器讀命令到指令到達(dá)譯碼單元的時(shí)鐘周期數(shù)減1,但不會(huì)超過循環(huán)體的指令個(gè)數(shù)。每次從循環(huán)體最后一條指令跳轉(zhuǎn)至循環(huán)體第一條指令時(shí)都需要額外的等待周期N,因而在預(yù)先存儲(chǔ)這N個(gè)周期的指令后,當(dāng)循環(huán)體在執(zhí)行完最后一條指令時(shí),就可以直接跳轉(zhuǎn)至第N+1條指令,而無需額外的等待周期。

進(jìn)一步的,本發(fā)明針對循環(huán)嵌套的狀況,通過堆棧,將最外一層循環(huán)所對應(yīng)的N條指令壓在堆棧的最底層,將嵌套的最內(nèi)一層是循環(huán)內(nèi)的N條指令置于堆棧的頂層。在讀取指令時(shí),根據(jù)循環(huán)的結(jié)構(gòu),先完成對最內(nèi)一層循環(huán)的處理,再對其外一層循環(huán)的指令進(jìn)行處理。由于堆棧具有先進(jìn)后出的讀取方式,最內(nèi)一層循環(huán)的指令始終會(huì)最先被處理,因而,這樣的設(shè)計(jì)可以保證循環(huán)的每一層都按照其所處的嵌套的位置進(jìn)行,在保證運(yùn)算順序正確的同時(shí),也省去了運(yùn)算過程中額外的等待周期。

利用本方法設(shè)計(jì)的系統(tǒng)不僅可實(shí)現(xiàn)硬件循環(huán)的零延時(shí)跳轉(zhuǎn),而且可減少程序存儲(chǔ)器的讀取次數(shù),尤其是在循環(huán)嵌套的情況下可大幅度減少存儲(chǔ)器讀取次數(shù),有效降低功耗

本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。

附圖說明

附圖用來提供對本發(fā)明的進(jìn)一步理解,并且構(gòu)成說明書的一部分,并與本發(fā)明的實(shí)施例一起,用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中:

圖1為根據(jù)本發(fā)明的流水線架構(gòu)圖;

圖2為根據(jù)本發(fā)明的循環(huán)緩存架構(gòu)框圖;

圖3為無循環(huán)緩存狀態(tài)下的循環(huán)執(zhí)行的示意圖;

圖4為加入循環(huán)緩存狀態(tài)下的循環(huán)執(zhí)行的示意圖。

具體實(shí)施方式

以下結(jié)合附圖對本發(fā)明的優(yōu)選實(shí)施例進(jìn)行說明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實(shí)施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。在任意的處理器或DSP中均可按照本設(shè)計(jì)提供的方法完成循環(huán)緩存的設(shè)計(jì)。

圖1為根據(jù)本發(fā)明的流水線架構(gòu)圖。圖中所示的處理器或DSP包括依次順序級聯(lián)的程序存儲(chǔ)器100、取指單元101、譯碼單元103和執(zhí)行單元108分別對應(yīng)該處理器或DSP的四級流水線F0~E0。F0為指令讀取的第一級流水線,取指單元101在這一級流水線發(fā)出程序存儲(chǔ)器100的讀請求。F1為指令讀取的第二級流水線,在這一級流水線,程序總線104返回F0流水線所讀指令給取指單元101,并且和循環(huán)緩存102輸出的指令進(jìn)行選擇之后,送給譯碼單元103。D0為指令譯碼流水線,用于對指令進(jìn)行譯碼。E0為指令執(zhí)行流水線,用于執(zhí)行完成譯碼的指令。

本實(shí)施例提供的處理器硬件循環(huán)處理系統(tǒng)與現(xiàn)有系統(tǒng)的區(qū)別在于,本系統(tǒng)中,取指單元101的指令輸出端和所述譯碼單元103的指令輸入端之間還包括選擇模塊107和循環(huán)緩存102;所述選擇模塊107的兩個(gè)輸入端分別連接取指單元101和循環(huán)緩存102的輸出端。也就是說,本實(shí)施例中的4級流水線處理器包括程序存儲(chǔ)器100、取指單元101、循環(huán)緩存102、選擇模塊107、譯碼單元103和執(zhí)行單元108,共6個(gè)模塊。其中的程序存儲(chǔ)器100連接取指單元101的輸入端,所述取指單元101的指令輸出端連接選擇模塊107的一個(gè)輸入端,選擇模塊107的另一個(gè)輸入端連接循環(huán)緩存102的輸出端;選擇模塊107的輸出端連接譯碼單元103的輸入端;所述譯碼單元103的輸出端連接執(zhí)行單元108的輸入端;

這種系統(tǒng)結(jié)構(gòu)下,所述取指單元101還與譯碼單元103的第一控制信號(hào)端105連接,所述循環(huán)緩存102還與譯碼單元103的第二控制信號(hào)端106連接。

所述譯碼單元103的第一控制信號(hào)端105用于在譯碼單元103未讀取到循環(huán)節(jié)點(diǎn)指令時(shí),控制所述取指單元101通過選擇模塊107向譯碼單元103輸出需要進(jìn)行譯碼的下一條指令;同時(shí),所述譯碼單元103在讀取到新循環(huán)的第一條指令后,還通過第一控制信號(hào)105控制所述取指單元101通過選擇模塊107同步向循環(huán)緩存102輸出新循環(huán)體的第一條至第N條指令;所述循環(huán)緩存102用于接收新循環(huán)體的前N條指令,并將接受的N條指令壓入堆棧進(jìn)行存儲(chǔ);其中,所述的循環(huán)節(jié)點(diǎn)指令指循環(huán)進(jìn)行的過程中,循環(huán)體中的最后一條指令;所述的循環(huán)緩存102接收的新循環(huán)體內(nèi)指令的條數(shù)N=min{n,m}, n為循環(huán)體中指令條數(shù),m為指令從程序存儲(chǔ)器100到達(dá)譯碼單元103所經(jīng)歷的時(shí)鐘周期數(shù)減1;

所述譯碼單元103的第二控制信號(hào)端106用于在譯碼單元103讀取到循環(huán)節(jié)點(diǎn)指令時(shí),控制循環(huán)緩存102通過選擇模塊107依次向譯碼單元103輸出當(dāng)前循環(huán)體的第一條至第N條指令。

由于當(dāng)前實(shí)施例中,從發(fā)出程序存儲(chǔ)器100的讀請求到指令到達(dá)D0流水線需要2個(gè)周期,因此只需要將每層循環(huán)體的第一條指令存入對應(yīng)的循環(huán)緩存102即可,即N等于1。圖1中可以看到,指令在D0流水線完成譯碼之后,如果判斷為循環(huán)體內(nèi)部指令并且為第一次進(jìn)入循環(huán),此時(shí)會(huì)將送給譯碼單元103的指令存入循環(huán)緩存102。

所述的循環(huán)緩存102為由兩個(gè)以上指令緩存構(gòu)成的堆棧,堆棧的層數(shù)為指令緩存的個(gè)數(shù),指令緩存的個(gè)數(shù)為所述處理器所支持的循環(huán)嵌套的層數(shù),堆棧的讀取方式為先進(jìn)后出。

本實(shí)施例中,循環(huán)緩存102的結(jié)構(gòu)如圖2所示。假設(shè)當(dāng)前的處理器支持3層硬件循環(huán)嵌套,而且根據(jù)前面的描述,需要將每層循環(huán)體的第一條指令存入對應(yīng)的循環(huán)緩存102,因此循環(huán)緩存102實(shí)際上是一個(gè)深度為3的堆棧,每層堆棧存放對應(yīng)層的硬件循環(huán)的第一條指令。每進(jìn)入一個(gè)新的硬件循環(huán),都會(huì)將循環(huán)體的第一條指令壓入指令緩存0,并同時(shí)將指令緩存0和指令緩存1中的有效指令分別壓入指令緩存1和指令緩存2(也就是說,圖2中,在指令緩存0中存放嵌套的最內(nèi)層循環(huán)的指令,在指令緩存1中存放嵌套的中間一層循環(huán)的指令,在指令緩存2中存放嵌套的最外層循環(huán)的指令)。每當(dāng)執(zhí)行到硬件循環(huán)體的最后一條指令,會(huì)將指令緩存0中存放的指令彈出,并在下一個(gè)周期送入譯碼單元,同時(shí)將指令緩存2和指令緩存1中的有效指令壓入指令緩存1和指令緩存0。

上述的每一個(gè)指令緩存為一個(gè)大小為N的存儲(chǔ)器,所述的每一個(gè)存儲(chǔ)器中按照地址從0至N-1的順序依次存儲(chǔ)對應(yīng)循環(huán)體中的第一條至第N條指令。在本實(shí)施例中,也就是每個(gè)指令緩存剛好存儲(chǔ)一條指令,3個(gè)指令緩存構(gòu)成了一個(gè)深度為3的堆棧。

這里的每層指令緩存是一個(gè)大小為N(本實(shí)施例為中N=1)的存儲(chǔ)器,該存儲(chǔ)器可以用RAM或者寄存器實(shí)現(xiàn),用于在程序首次進(jìn)入循環(huán)后,存儲(chǔ)該循環(huán)體中的前N條指令。存入循環(huán)緩存的指令個(gè)數(shù)N等于從發(fā)出程序存儲(chǔ)器讀命令到指令到達(dá)譯碼單元的時(shí)鐘周期數(shù)減1,但不會(huì)超過循環(huán)體的指令個(gè)數(shù)。根據(jù)前面循環(huán)緩存的描述,每層指令緩存的讀寫地址都是按照0~N-1的順序變換的。

下面詳細(xì)介紹圖1所示的實(shí)施例的循環(huán)緩存102的操作過程。

取指單元101發(fā)出程序存儲(chǔ)器100的讀請求后,經(jīng)過2個(gè)周期,讀取的指令到達(dá)D0流水線。在譯碼單元103完成譯碼之后,如果判斷為循環(huán)體內(nèi)部指令并且為第一次進(jìn)入循環(huán),將該指令送入執(zhí)行單元108的同時(shí),需要將該指令壓入循環(huán)緩存102。當(dāng)譯碼單元103判斷譯碼指令為循環(huán)體的最后一條指令,并且循環(huán)沒有結(jié)束,取指單元101將發(fā)出對程序存儲(chǔ)器的讀請求,且讀取的指令為循環(huán)體的第2條指令。由于新讀取的指令需要2個(gè)周期到達(dá)D0流水線,因此在第一個(gè)時(shí)鐘周期將從循環(huán)緩存102中取出循環(huán)體的第一條指令并進(jìn)行譯碼,第二個(gè)周期完成新取回的循環(huán)體的第二條指令的譯碼。

需要注意的是,如果循環(huán)體只有一條指令,除第一次循環(huán)外,之后的每次循環(huán)都將從循環(huán)緩存102中讀取循環(huán)體指令,無需對程序存儲(chǔ)器100進(jìn)行反復(fù)的讀操作。因?yàn)樵诔绦蚴状芜M(jìn)入循環(huán)后,需要將該循環(huán)體中的前N條指令存入該層循環(huán)對應(yīng)的循環(huán)緩存中。存入循環(huán)緩存的指令個(gè)數(shù)N等于從發(fā)出程序存儲(chǔ)器讀命令到指令到達(dá)譯碼單元的時(shí)鐘周期數(shù)減1。如果循環(huán)體的指令數(shù)小于或等于N,則只在首次循環(huán)的時(shí)候需要從程序存儲(chǔ)器100讀取循環(huán)體指令并存入循環(huán)緩存102,之后便可從循環(huán)緩存102讀取全部循環(huán)體指令,直到循環(huán)結(jié)束。如果循環(huán)體的指令個(gè)數(shù)大于N,當(dāng)再次進(jìn)入循環(huán)后,首先從循環(huán)緩存讀取之前存入的N條指令,直到從程序存儲(chǔ)器讀回的循環(huán)體的第N+1條指令返回譯碼單元。這樣便可以實(shí)現(xiàn)硬件循環(huán)的零延時(shí)跳轉(zhuǎn)。

也就是說,對于從讀取存儲(chǔ)器中到譯碼級需要經(jīng)歷m+1個(gè)時(shí)鐘周期的處理器流水線來說,其取指級按照如下步驟輸出指令:

第一步,判斷從上一級輸如至取指級的指令是否為新循環(huán)體的第一條指令,若是,則由取指級依次存儲(chǔ)并同步向下一級(即譯碼級)輸出當(dāng)前循環(huán)體中的第一至第N條指令;否則,跳轉(zhuǎn)至第三步;

其中,N=min{n,m}, n為當(dāng)前循環(huán)體中指令的條數(shù),m為處理器流水線中從讀取存儲(chǔ)器中到譯碼級所需要經(jīng)歷的時(shí)鐘周期數(shù)減1;

第二步,若指令是否為循環(huán)體的最后一條指令,且循環(huán)還未結(jié)束,則由取指級依次向下一級(即譯碼級)輸出取指級內(nèi)存儲(chǔ)的當(dāng)前循環(huán)體中的第一至第N條指令,輸出完畢后等待接收到上一級輸入新指令再跳轉(zhuǎn)至第一步;否則,跳轉(zhuǎn)至第三步;

第三步,由取指級向下一級(即譯碼級)輸出其從上一級得到的指令,結(jié)束本輪取指級處理流程。

其中,所述的取指級包括一個(gè)深度為所處處理器所支持的循環(huán)嵌套的層數(shù)的堆棧,由所述堆棧按照如下步驟進(jìn)行上述第一步中的存儲(chǔ)當(dāng)前循環(huán)體中的第一至第N條指令的操作:

步驟101,判斷指令是否為新循環(huán)體的第一條指令,若是,則將當(dāng)前堆棧中存儲(chǔ)的所有的循環(huán)體的指令向堆棧的深處下壓一層(即將原先存儲(chǔ)在第一層存儲(chǔ)單元中的指令壓向第二層存儲(chǔ)單元,將原先存儲(chǔ)在第二層存儲(chǔ)單元中的指令壓向第三層存儲(chǔ)單元,依次類推),之后跳轉(zhuǎn)至步驟102;否則,直接跳轉(zhuǎn)至步驟102;

步驟102,在堆棧的最上一層中(即最上一層存儲(chǔ)單元中),按照地址從0至N-1的順序依次存儲(chǔ)當(dāng)前循環(huán)體中的第一條至第N條指令。

同時(shí),所述的堆棧按照如下步驟完成上述第二步中輸出取指級內(nèi)存儲(chǔ)的當(dāng)前循環(huán)體中的第一至第N條指令的操作:

步驟201,判斷指令是否為當(dāng)前循環(huán)體的第N條指令,若是,且循環(huán)體已經(jīng)結(jié)束,則將當(dāng)前堆棧中存儲(chǔ)的所有的循環(huán)體的指令向堆棧的上方上提一層(即,將原先存儲(chǔ)在第三層存儲(chǔ)單元中的指令提至第二層,將原先存儲(chǔ)在第二層存儲(chǔ)單元中的指令提至第一層,依次類推),之后跳轉(zhuǎn)至步驟102;否則,直接跳轉(zhuǎn)至步驟202;

步驟202,從最上一層存儲(chǔ)單元中(即堆棧的最上一層),按照地址從0至N-1的順序依次輸出當(dāng)前循環(huán)體中的第一條至第N條指令。

對比圖3所示的無循環(huán)緩存狀態(tài)下的循環(huán)執(zhí)行狀態(tài)過程不難發(fā)現(xiàn),由于程序存儲(chǔ)器存在延時(shí),所以每次從循環(huán)體最后一條指令跳轉(zhuǎn)至循環(huán)體第一條指令的時(shí)候,需要插入一個(gè)周期的氣泡,讀取的循環(huán)體的第一條指令才能到達(dá)D0流水線。因此在循環(huán)體指令比較少,或者循環(huán)嵌套的情況下,這個(gè)插入的氣泡對程序執(zhí)行的效率會(huì)有比較大的影響。

在圖4中增加了循環(huán)緩存后,原先圖3中插入的氣泡被從循環(huán)緩存102中讀取的循環(huán)體的第一條指令所代替,實(shí)現(xiàn)了硬件循環(huán)的零延時(shí)跳轉(zhuǎn)。同時(shí)利用本方法還可減少程序存儲(chǔ)器的讀取次數(shù),尤其是在循環(huán)嵌套的情況下可大幅度減少存儲(chǔ)器讀取次數(shù),有效降低功耗。

通過本實(shí)施例可知,循環(huán)緩存是一個(gè)深度為M的堆棧,M的大小為該處理器支持的硬件循環(huán)的嵌套層數(shù),每一層堆棧對應(yīng)方法流程中描述的一層存儲(chǔ)單元,即圖2中的一個(gè)指令緩存。每進(jìn)入一個(gè)新的循環(huán),都會(huì)將新循環(huán)的前N條指令按照指令順序存入指令緩存0,并同時(shí)將指令緩存0和指令緩存1中的有效指令壓入指令緩存1和指令緩存2。每當(dāng)執(zhí)行到硬件循環(huán)體的最后一條指令,會(huì)將指令緩存0中存放的指令按照順序彈出,并送入譯碼單元,等待指令緩存0中所有指令彈出之后,將指令緩存2和指令緩存1中的有效指令壓入指令緩存1和指令緩存0。

這樣,通過堆棧,將最外一層循環(huán)所對應(yīng)的N條指令壓在堆棧的最底層,將嵌套的最內(nèi)一層是循環(huán)內(nèi)的N條指令置于堆棧的頂層。在讀取指令時(shí),根據(jù)循環(huán)的結(jié)構(gòu),先完成對最內(nèi)一層循環(huán)的處理,再對其外一層循環(huán)的指令進(jìn)行處理。由于堆棧具有先進(jìn)后出的讀取方式,最內(nèi)一層循環(huán)的指令始終會(huì)最先被處理,因而,這樣的設(shè)計(jì)可以保證循環(huán)的每一層都按照其所處的嵌套的位置進(jìn)行,在保證運(yùn)算順序正確的同時(shí),也省去了運(yùn)算過程中額外的等待周期。

本文公開的處理器或DSP的硬件循環(huán)處理方法和系統(tǒng),通過在原有的取指單元中增加循環(huán)緩存,可以消除每次從循環(huán)體最后一條指令跳轉(zhuǎn)至循環(huán)體第一條指令時(shí)的額外的等待周期。本方法設(shè)計(jì)簡單,在原有系統(tǒng)中增加很少的硬件的資源,便可實(shí)現(xiàn)硬件循環(huán)的零延時(shí)跳轉(zhuǎn)。另外,本方法還能夠減少取指單元對程序存儲(chǔ)器的訪問,從而降低功耗。

本領(lǐng)域普通技術(shù)人員可以理解:以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,盡管參照前述實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,對于本領(lǐng)域的技術(shù)人員來說,其依然可以對前述各實(shí)施例記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
泸州市| 上杭县| 唐海县| 买车| 博野县| 安徽省| 平安县| 岳阳县| 昭觉县| 双流县| 涞源县| 雷波县| 米脂县| 黄浦区| 伽师县| 关岭| 铅山县| 吉水县| 合山市| 宣城市| 贵州省| 宜城市| 江门市| 金乡县| 罗源县| 铁岭市| 昌图县| 台北县| 龙海市| 高淳县| 宜宾县| 邯郸市| 阳江市| 彰化市| 旅游| 宜兰县| 永和县| 平阴县| 弥渡县| 曲松县| 丰原市|