一種考慮防護措施的緩存可靠性分析方法
【專利摘要】本發(fā)明公開了一種考慮防護措施的緩存可靠性評估方法,結(jié)合單粒子時空單比特翻轉(zhuǎn)和多比特翻轉(zhuǎn)的概率特性,提出了一種基于馬爾科夫狀態(tài)遷移的緩存可靠性計算方法。本方法將單粒子翻轉(zhuǎn)的時空累積效應(yīng)和檢錯糾錯防護措施帶來的可靠性改變?nèi)谌朐u估方法中,為存儲單元容單粒子軟錯誤及糾錯措施的設(shè)計提供依據(jù)。
【專利說明】一種考慮防護措施的緩存可靠性分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機領(lǐng)域的處理器存儲單元中的抗單粒子軟錯誤,特別是能夠?qū)Σ捎昧藛挝粰z錯(Single Error Correct1n, SEC)、雙位檢錯(Double Error Correct1n, DEC)等檢錯糾錯碼ECC(Error Correct1n Code)及交錯布局防護措施的緩存單元的可靠性進行分析,可以對處理器抗單粒子軟錯誤均衡容錯設(shè)計提供理論依據(jù)。
【背景技術(shù)】
[0002]隨著半導(dǎo)體技術(shù)的飛速發(fā)展,集成電路制造工藝不斷向超深亞微米發(fā)展,芯片印刷電路板的組裝密度不斷增大、供電電壓不斷降低以及時鐘頻率的提高等原因?qū)е挛⑻幚砥靼l(fā)生單粒子翻轉(zhuǎn)(Single Event Upset, SEU)的概率大大提升。特別是處于太空環(huán)境下的衛(wèi)星系統(tǒng)更容易遭受高能帶電粒子的撞擊,使衛(wèi)星系統(tǒng)的存儲位或邏輯位發(fā)生單位翻轉(zhuǎn)(Single Bit Upset, SBU)或多位翻轉(zhuǎn)(Multi Bit Upset, MBU)。由于單粒子軟錯誤主要發(fā)生在數(shù)據(jù)存儲或指令相關(guān)器件中,并不會影響器件的物理特性,因此可以通過系統(tǒng)復(fù)位、重新加電或重新寫入等措施使系統(tǒng)恢復(fù)到正常狀態(tài)。微處理器抗單粒子效應(yīng)設(shè)計的主要途徑是通過軟硬件冗余或者采用軟件、硬件層的檢錯糾錯碼技術(shù),發(fā)現(xiàn)并糾正單粒子翻轉(zhuǎn)錯誤,從而減少軟錯誤對系統(tǒng)可靠性的影響。
[0003]Mukherjee等開創(chuàng)性的提出了架構(gòu)脆弱性因子AVF分析方法來評估系統(tǒng)部件在遭受單粒子翻轉(zhuǎn)后發(fā)生故障的概率,系統(tǒng)部件發(fā)生故障的概率由單粒子翻轉(zhuǎn)原生錯誤率、電路和進程的處理過程以及AVF共同決定。研究發(fā)現(xiàn)不同應(yīng)用程序或者不同體系結(jié)構(gòu)的AVF相差很大,在AVF分析方法的基礎(chǔ)上,研究人員提出了很多可靠性評估方法。Li等提出一種基于概率的軟錯誤生成和傳播模型SoftArch,相對于以前的方法,SoftArch能夠更快速且更全面的評估處理器架構(gòu)級的軟錯誤行為,而且能夠識別不同微架構(gòu)級部件以及應(yīng)用程序不同階段對系統(tǒng)AVF的貢獻率,但是沒有考慮防護措施后軟錯誤對系統(tǒng)的影響。Suh等提出一種針對單位和多位翻轉(zhuǎn)情況下的狀態(tài)轉(zhuǎn)換可靠性評估方法,但是沒有考慮應(yīng)用程序AVF的影響。Alessandro等提出了一種基于微處理器的統(tǒng)計可靠性評估方法,該方法主要從程序執(zhí)行的角度分析微處理器的軟錯誤率,并通過模擬軟錯誤,快速靜態(tài)地分析目標(biāo)軟件的控制流和數(shù)據(jù)流,以此計算程序成功運行的概率,得到了和統(tǒng)計錯誤注入相一致的實驗結(jié)果,且大大降低了統(tǒng)計錯誤注入方法所需要的評估時間,但是該方法還是依賴于統(tǒng)計信息,針對性較差。
[0004]微處理器中的存儲單元對軟錯誤最為敏感。隨著技術(shù)的進步,緩存已占據(jù)微處理器空間的一半以上,由于緩存中存放著大量運算所需要的地址和數(shù)據(jù),且隨著亞閾值(sub-threshold)電壓操作和昏沉電源(drowsy supply)電壓等技術(shù)的使用,在降低了緩存的靜態(tài)功耗的同時,也使得緩存單元對單粒子軟錯誤越加敏感。同時,諸如奇偶校驗(Parity)、單位糾錯雙位檢錯(SECDED)等ECC防護措施的使用,又增強了處理器存儲單元抗單粒子效應(yīng)的能力。如何評估采用ECC防護措施、具有累積時空單位或多位單粒子效應(yīng)的處理器緩存可靠性逐漸成為目前研究的熱點。因此研究單粒子軟錯誤緩解及防護技術(shù)主要從以下兩個方面進行研究:1)開發(fā)更好的框架、分析技術(shù)和軟件工具以便更好的理解和度量軟錯誤是如何影響系統(tǒng)的行為;2)擴展現(xiàn)有的軟錯誤屏蔽、檢測和恢復(fù)技術(shù),以便在可行的性能、能量、空間和復(fù)雜度約束條件下提高系統(tǒng)的可靠性。
[0005]現(xiàn)有的緩存可靠性設(shè)計中加入了諸如奇偶校驗、單位糾錯雙位檢錯(SECDED)和交錯布局(Interleaving)等防護措施,而 AVF(Architectural Vulnerability Factors)和生命周期分析方法都沒有考慮應(yīng)用這些防護措施后系統(tǒng)的可靠性。
【發(fā)明內(nèi)容】
[0006]發(fā)明目的:現(xiàn)有技術(shù)都是在沒有考慮防護措施的前提下,通過分析應(yīng)用程序特性及緩存的布局等來分析其可靠性,這些分析技術(shù)會使緩存的防護代價過高,例如防護措施的重疊等,進而影響整個系統(tǒng)的性能(如時延、功耗等),針對現(xiàn)有緩存可靠性性分析方法的不足,本發(fā)明目的是提出一種考慮單粒子翻轉(zhuǎn)的時空累積效應(yīng)和檢錯糾錯防護措施后緩存的可靠性評估方法。
[0007]技術(shù)方案:為了實現(xiàn)上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為一種考慮防護措施的緩存可靠性評估方法,下面首先介紹該方法使用的基本符號:
[0008]AVFstructure:表不分析對象的脆弱性因子;
[0009]VCC(Vulnerability Clock Cycle):脆弱性時鐘周期,所有在ACE生命周期內(nèi)的時間段都為脆弱性時鐘周期;
[0010]PD (Protect1n Domain):保護區(qū)域,如奇偶校驗、SEO)ED、DECTED等漢明碼所保護的區(qū)域;
[0011]L(Scrubbing Interval):刷新間隔,ECC防護策略運算的時間間隔定義為刷新間隔;
[0012]Pseu PD:保護單元ro在一個處理器時鐘周期內(nèi)發(fā)生單粒子翻轉(zhuǎn)的概率;
[0013]dm,n:表示發(fā)生mXn型空間多位翻轉(zhuǎn)的概率;
[0014]MS (Markov State):馬爾科夫狀態(tài),在某個處理器時鐘周期內(nèi),保護區(qū)域H)內(nèi)所發(fā)生單粒子翻轉(zhuǎn)的比特位個數(shù);
[0015]λ:軟錯誤發(fā)生率;
[0016]m:保護區(qū)域內(nèi)可以防護軟錯誤位個數(shù)的上界;
[0017]mac:系統(tǒng)失效時,保護區(qū)域內(nèi)已經(jīng)發(fā)生軟錯誤位的個數(shù);
[0018]Q=J每次單粒子效應(yīng)所產(chǎn)生軟錯誤位的平均個數(shù);
[0019]MTTF在軟錯誤率為λ的情況下,發(fā)生單粒子時空多位翻轉(zhuǎn)后,系統(tǒng)的平均無故障時間;
[0020]MTTHkj:在軟錯誤率為λ'的情況下,發(fā)生單粒子單位位翻轉(zhuǎn)后,系統(tǒng)的平均無故障時間。
[0021]一種考慮防護措施的緩存可靠性分析方法,其特征在于,包括以下步驟:第一步,進行體系結(jié)構(gòu)脆弱性因子(AVF, Architectural Vulnerability Factor)計算:首先根據(jù)緩存進行的讀寫操作將緩存劃分為軟錯誤敏感位ACE (Architecturally CorrectExecut1n)、軟錯誤非敏感位UnACE和未知位Unknown三種類型,確定指令生命周期內(nèi)哪些位的軟錯誤是敏感的;之后,計算體系結(jié)構(gòu)脆弱性因子AVF
[0022]
【權(quán)利要求】
1.一種考慮防護措施的緩存可靠性分析方法,其特征在于,包括以下步驟: 第一步,進行體系結(jié)構(gòu)脆弱性因子AVF計算:首先根據(jù)緩存進行的讀寫操作將緩存劃分為軟錯誤敏感位ACE、軟錯誤非敏感位UnACE和未知位Unknown三種類型,確定指令生命周期內(nèi)哪些位的軟錯誤是敏感的;之后,計算體系結(jié)構(gòu)脆弱性因子AVF
【文檔編號】G06F11/10GK104035834SQ201410311754
【公開日】2014年9月10日 申請日期:2014年7月2日 優(yōu)先權(quán)日:2014年7月2日
【發(fā)明者】汪蕓, 王輝 申請人:東南大學(xué)