基于多核cpu和gpgpu硬件的高通量測序數(shù)據(jù)質(zhì)量控制系統(tǒng)的制作方法
【專利摘要】“基于多核CPU和GPGPU硬件的高通量測序數(shù)據(jù)質(zhì)量控制系統(tǒng)”是針對傳統(tǒng)計算機(jī)無法滿足對海量高通量測序數(shù)據(jù)進(jìn)行質(zhì)量控制的分析要求,根據(jù)高通量測序數(shù)據(jù)處理中海量數(shù)據(jù)可并行處理的特點,提出一種基于多核CPU和GPGPU(通用并行處理器)硬件的、軟硬件方法相結(jié)合的計算分析系統(tǒng)?;诙嗪薈PU和GPGPU硬件的高通量測序數(shù)據(jù)質(zhì)量控制系統(tǒng)的主要模塊包括:多核CPU和GPGPU計算機(jī)以及統(tǒng)一的軟件平臺。其特點是(1)高性能并行計算和存儲硬件系統(tǒng),(2)高性能、統(tǒng)一的、可配置的軟件平臺。基于多核CPU和GPGPU硬件的高通量測序數(shù)據(jù)質(zhì)量控制處理可以顯著提高高通量測序數(shù)據(jù)質(zhì)量控制的分析效率。
【專利說明】基于多核CPU和GPGPU硬件的高通量測序數(shù)據(jù)質(zhì)量控制系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明專利涉及一種用于生物信息學(xué)高通量測序數(shù)據(jù)質(zhì)量控制的軟硬件結(jié)合的計算機(jī)分析系統(tǒng),尤其是能夠快速的對高通量測序數(shù)據(jù)進(jìn)行質(zhì)量控制。
【背景技術(shù)】
[0002]高通量測序技術(shù)又稱“下一代”測序技術(shù),是對傳統(tǒng)測序一次革命性的改變,能夠一次對幾十萬到幾百萬條DNA/RNA分子進(jìn)行序列測定,使得對一個物種的轉(zhuǎn)錄組,基因組以及微生物群落的元基因組進(jìn)行細(xì)致全貌的分析成為可能,越來越廣泛地應(yīng)用于生物學(xué)及相關(guān)研究中。
[0003]與傳統(tǒng)的Sanger測序技術(shù)相比,新一代測序技術(shù)的通量提高了一到兩個數(shù)量級,能夠較經(jīng)濟(jì)地對基因組進(jìn)行高倍率的序列覆蓋,數(shù)據(jù)量更多(100MB至數(shù)G)。隨著高通量測序儀器性能的逐漸穩(wěn)定和價格的不斷下降,其應(yīng)用必然會越來越廣泛,尤其是小型化的測序儀器的廣泛應(yīng)用,因此基于高通量測序數(shù)據(jù)的研究將會在數(shù)量上和應(yīng)用領(lǐng)域上呈現(xiàn)井噴式的快速發(fā)展趨勢。由于高通量測序技術(shù)本身的限制及人為實驗的操作誤差,原始生成的高通量測序數(shù)據(jù)往往含有部分低質(zhì)量序列,包括低質(zhì)量堿基和污染序列等。這些低質(zhì)量序列的存在將會極大地影響后續(xù)數(shù)據(jù)分析的結(jié)果,甚至將導(dǎo)致錯誤結(jié)果和結(jié)論。因此,質(zhì)量控制是進(jìn)行高通量測序數(shù)據(jù)分析必須的關(guān)鍵步驟之一。由于高通量測序數(shù)據(jù)往往具有上億條序列和幾百G的數(shù)據(jù)量,所以對應(yīng)于高通量測序數(shù)據(jù)的質(zhì)量控制,必須有具有相當(dāng)運算能力的超級計算機(jī)和相應(yīng)的分析軟件來實現(xiàn)。采用目前的普通分析方法利用單一的CPU計算機(jī)對幾億條序列進(jìn)行逐條掃描并歸類統(tǒng)計,可能需要數(shù)天甚至一個月的時間,使數(shù)據(jù)分析成為了相關(guān)研究中的一大瓶頸。下一代測序技術(shù)所產(chǎn)生的高通量數(shù)據(jù)的質(zhì)量控制問題給廣大研究人員在基于高通量測序數(shù)據(jù)的研究方面設(shè)置了硬件和技術(shù)方面的障礙。
【發(fā)明內(nèi)容】
[0004]為了克服傳統(tǒng)計算機(jī)和分析方法無法滿足高通量測序數(shù)據(jù)分析要求這一不足,本發(fā)明根據(jù)高通量測序數(shù)據(jù)處理中數(shù)據(jù)可并行處理的特點,提出一種基于多核CPU和GPGPU(通用并行處理器)硬件的、軟硬件方法相結(jié)合的高通量測序數(shù)據(jù)質(zhì)量控制系統(tǒng)。
[0005]本發(fā)明采用的技術(shù)方案是多核CPU和GPGPU計算機(jī)以及構(gòu)筑于其上的高效、統(tǒng)一的軟件平臺(圖1)。其特點是(I)高性能并行計算和存儲硬件系統(tǒng);(2)高性能、統(tǒng)一的、可配置的并行化軟件平臺。
[0006](I)高性能并行計算和存儲硬件
[0007]該硬件系統(tǒng)采用多路多核CPU和GPGPU進(jìn)行大規(guī)模并行化計算。圖2是計算服務(wù)器的系統(tǒng)結(jié)構(gòu)圖。其重點是:
[0008]首先,多路多核CPU并行化計算,采用4路處理器,處理器之間采用QPI總線連接。每路處理器具有8個獨立計算核心,配備三通道DDR3 RDIMM內(nèi)存,并且適應(yīng)于智能化的計算資源配置和負(fù)載平衡控制,同時也適應(yīng)于云計算服務(wù)器的計算要求。
[0009]其次,GPGPU協(xié)助計算芯片的多尺度并行化計算能力:448個流處理器和高達(dá)1.03Tflops的單精度計算峰值,板載6GB存儲器,同時可以在適當(dāng)?shù)那闆r下應(yīng)付交互性和可視化方面的需求。
[0010]第三,高速緩存和高速總線:適應(yīng)于并發(fā)式的測序數(shù)據(jù)分析任務(wù)的調(diào)配和協(xié)同工作環(huán)境在大規(guī)模任務(wù)分配上的需要。
[0011]最后,RAID磁盤陣列:通過RAID磁盤陣列存儲,不但提高中心服務(wù)器的響應(yīng)速度和穩(wěn)定性,而且有利于不定期的中心服務(wù)器更新。同時可應(yīng)付云計算服務(wù)器的備份和升級需要。
[0012](2)高性能、統(tǒng)一的、可配置的軟件平臺
[0013]高性能的軟件平臺包括低質(zhì)量數(shù)據(jù)處理、污染序列的定性鑒定和污染序列的定量鑒定(圖 3)。此系統(tǒng)被命名為 QC-Chain 軟件系統(tǒng)(http://www.computationalbioenergy.0rR/qc-chain.html,自主知識產(chǎn)權(quán)),其高性能數(shù)據(jù)分析步驟是:
[0014]首先,低質(zhì)量數(shù)據(jù)處理是基于多核CPU并行計算。將輸入文件分割成小規(guī)模子數(shù)據(jù),將不同的子數(shù)據(jù)分配到不同的CPU內(nèi)核上,然后在眾多CPU內(nèi)核上同時預(yù)測子序列的堿基質(zhì)量、重復(fù)序列和接頭序列,并依次切除序列兩端的低質(zhì)量堿基,過濾含有一定比例低質(zhì)量堿基的序列,刪除其中的接頭序列和重復(fù)序列,最后將過濾后的數(shù)據(jù)結(jié)果合并到一起。
[0015]其次,污染序列的定性鑒定是基于多核CPU和GPGPU并行計算。利用Parallel-META 軟件(http://www.computationalbioenergy.0rg/parallel-meta.html,自主知識產(chǎn)權(quán)),對于16S或ISSrRNA特征序列(一種較短的生物標(biāo)記序列)進(jìn)行預(yù)測、提取和鑒定,定性地獲得高通量測序數(shù)據(jù)中所有序列的物種來源信息。首先,將輸入文件分割成小規(guī)模子數(shù)據(jù),將不同的子數(shù)據(jù)分配到不同的GPGPU內(nèi)核上,然后在眾多GPGPU內(nèi)核上同時預(yù)測子序列的16S或18S rRNA特征序列,最后將特征序列預(yù)測結(jié)果合并到一起;然后,根據(jù)特征序列預(yù)測結(jié)果多次將大規(guī)模輸入數(shù)據(jù)從外存儲器中載入內(nèi)存并查找提取。將輸入文件分割成小規(guī)模的子文件,將不同的子文件分配到不同的線程上,在不同的線程上同時搜索子文件中的rRNA特征序列,最后將搜索結(jié)果合并。最后,分別將16S rRNA和18S rRNA特征序列的搜索結(jié)果匯總到一起,并生成圖形化的物種結(jié)構(gòu)組成,從而獲得高通量測序數(shù)據(jù)中所有可能存在的物種信息。
[0016]第三,污染序列的定量鑒定是基于多核CPU并行計算。隨機(jī)地提取一定比例的高通量測序數(shù)據(jù)中的序列,并利用通用的序列比對方法(BLASTn),定量的獲得高通量測序數(shù)據(jù)中所有序列的物種來源信息及其分布比例。將輸入文件分割成小規(guī)模的子文件,將不同的子文件分配到不同的線程上,在不同的線程上同時提取一定比例的序列,最后將提取的序列合并。
[0017]因此本軟件平臺依賴于多核CPU和GPGPU硬件平臺,只有相互配合才能夠發(fā)揮高效率高通量測序數(shù)據(jù)質(zhì)量控制的功能。
[0018]本發(fā)明的有益效果是,QC-Chain軟件系統(tǒng)與基于多核CPU和GPGPU硬件計算機(jī)相配合,克服了基于單核CPU硬件計算機(jī)的計算瓶頸,可以使高通量測序數(shù)據(jù)質(zhì)量控制效率提高10倍以上。本發(fā)明的應(yīng)用將會加快高通量測序數(shù)據(jù)質(zhì)量控制的進(jìn)度,進(jìn)而提速高通量測序相關(guān)的研究?!緦@綀D】
【附圖說明】
[0019]圖1、基于多核CPU和GPGPU硬件的高通量測序數(shù)據(jù)質(zhì)量控制系統(tǒng)的總體流程。
[0020]圖2、基于多核CPU和GPGPU和硬件的高通量測序數(shù)據(jù)質(zhì)量控制系統(tǒng)的硬件架構(gòu)。其主要部分是:第一,4路多核心CPU的多尺度并行化計算能力,每路CPU具備獨立8個計算核心,并具有三通道內(nèi)存。第二,GPGPU協(xié)助計算芯片具備448個流處理器和高達(dá)1.03Tflops的單精度計算峰值,板載6GB存儲器。第三,高速緩存和高速總線。第四,RAID磁盤陣列,不但提高中心服務(wù)器的響應(yīng)速度和穩(wěn)定性,而且有利于不定期的中心服務(wù)器更新。
[0021]圖3、基于多核CPU和GPGPU硬件的高通量測序數(shù)據(jù)質(zhì)量控制系統(tǒng)的軟件流程。其流程主要步驟是:首先,使用多核CPU對通量測序數(shù)據(jù)序列進(jìn)行處理,依次切除輸入數(shù)據(jù)序列兩端的低質(zhì)量堿基,過濾含有一定比例低質(zhì)量堿基的序列,刪除其中的接頭序列和重復(fù)序列,然后將結(jié)果合并起來,作為高質(zhì)量序列數(shù)據(jù)。然后,對于上一步得到的數(shù)據(jù)進(jìn)行污染序列的定性檢測,使用并行化多線程計算工具,提取rRNA序列(16S或18S),并映射到已知基因序列數(shù)據(jù)庫(如GreenGenes、RDP、SilVa數(shù)據(jù)庫)上,獲得所有序列的物種來源信息。最后,通過并行化算法隨機(jī)提取一定數(shù)量的序列,利用blast算法獲得序列比對的結(jié)果和,同時統(tǒng)計其中各個物種的相對豐度。綜合上述結(jié)果,生成圖形化分析結(jié)果和分析報告。
【具體實施方式】
[0022]在圖1中,軟件必須和硬件兼容,因此軟件版本可向下兼容硬件。
[0023]在圖2中,基于多核CPU和GPGPU硬件的高通量測序數(shù)據(jù)質(zhì)量控制系統(tǒng)的計算和存儲硬件基本配置是:單路CPU至少具備4個獨立物理計算核心,包含GPGPU(通用并行處理器)運行硬件(至少為G80以上架構(gòu)),雙通道內(nèi)存2GB以上,硬盤至少50G以上。CPU、GPGPU和存儲之間高速互聯(lián)。
[0024]在圖3中,基于多核CPU和GPGPU硬件的高通量測序數(shù)據(jù)質(zhì)量控制系統(tǒng)的軟件平臺基本配置是=Linux操作系統(tǒng),預(yù)裝GCC運行環(huán)境、CUDA運行環(huán)境(3.0以上)、QC-Chain軟件系統(tǒng)版本1.0以上,Parallel-META軟件版本2.0以上。QC-Chain軟件系統(tǒng)與Parallel-META軟件系統(tǒng)的運行界面為命令行形式,配電子版使用說明。同時官方網(wǎng)站(http://www.computationalbioenergy.0rg/software, html)提供長期軟件更新服務(wù)。
【權(quán)利要求】
1.一種軟硬件結(jié)合的計算機(jī)高通量測序數(shù)據(jù)質(zhì)量控制系統(tǒng),其特征是:系統(tǒng)包含計算機(jī)硬件和基于其上的軟件系統(tǒng),輸入是在任何存儲介質(zhì)上保留的高通量測序數(shù)據(jù)文件,輸出去除低質(zhì)量序列和污染序列的定性及定量信息。
2.根據(jù)權(quán)利要求1所述的計算機(jī)高通量測序數(shù)據(jù)質(zhì)量控制系統(tǒng),其特征是:計算機(jī)硬件系統(tǒng)包括GPGPU硬件、多核CPU硬件、存儲介質(zhì)等,是一個完整的計算機(jī)硬件系統(tǒng)。
3.根據(jù)權(quán)利要求1所述的高通量測序數(shù)據(jù)質(zhì)量控制系統(tǒng),其特征是:計算機(jī)軟件系統(tǒng)包括與多核CPU以及GPGPU硬件系統(tǒng)兼容的完整的高通量測序數(shù)據(jù)質(zhì)量控制分析軟件,是一個完整的計算機(jī)軟件分析系統(tǒng);該軟件系統(tǒng)的運行界面為命令行形式,輸出結(jié)果為網(wǎng)頁形式的文檔、圖片以及文本形式,配電子版使用說明。
【文檔編號】G06F19/20GK103838985SQ201210478392
【公開日】2014年6月4日 申請日期:2012年11月22日 優(yōu)先權(quán)日:2012年11月22日
【發(fā)明者】周茜, 寧康, 蘇曉泉, 徐健 申請人:中國科學(xué)院青島生物能源與過程研究所