專利名稱:一種智能協(xié)同表達(dá)基因分析儀的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種智能協(xié)同表達(dá)基因分析儀,主要用到基因芯片非線性特征提取技術(shù)和單片機(jī)嵌入式核雙聚類算法應(yīng)用。
背景技術(shù):
基因芯片技術(shù)將大量探針?lè)肿庸潭ㄓ谥С治锷虾笈c標(biāo)記的樣品分子進(jìn)行雜交,通過(guò)檢測(cè)每個(gè)探針?lè)肿拥碾s交信號(hào)強(qiáng)度,進(jìn)而獲取樣品分子的數(shù)量和序列信息,為尋找新的功能基因發(fā)揮著重要作用?;蛐酒F(xiàn)已泛化到生物芯片、微陣列、DNA芯片,甚至蛋白芯片。表達(dá)譜基因芯片的出現(xiàn)為檢測(cè)整個(gè)基因組的表達(dá)情況提供了一個(gè)極為有利的工具。一次微陣列實(shí)驗(yàn)?zāi)塬@得細(xì)胞在某一條件下的全基因組表達(dá)數(shù)據(jù),包含成千上萬(wàn)個(gè)基因在細(xì)胞中的相對(duì)或絕對(duì)豐度,構(gòu)成了一個(gè)數(shù)據(jù)矩陣集,行向量代表基因;列向量代表某一條件各基因的表達(dá)水平。對(duì)于基因表達(dá)譜數(shù)據(jù)的分析任務(wù)就是從數(shù)據(jù)矩陣中找出具有相似表達(dá)模式的基因(高表達(dá)基因集、低表達(dá)基因集或者相反表達(dá)基因集)。這些具有相似表達(dá)模式的基因可能具有共同的特征,如共同的調(diào)節(jié)元件,共有的生物功能,或者共有的細(xì)胞起源等。通常某一特定途徑中的基因或者受相同環(huán)境變化影響的基因應(yīng)當(dāng)是共調(diào)控的,并且具有相似的表達(dá)模式,通過(guò)對(duì)這些共同表達(dá)基因的尋找,不僅可以對(duì)基因的功能研究給予提示,還可以對(duì)基因調(diào)控途徑和調(diào)控網(wǎng)絡(luò)的研究給予啟發(fā)。基因表達(dá)譜協(xié)同表達(dá)基因的提取,對(duì)生物醫(yī)學(xué)臨床診斷、藥物療效判斷、揭示疾病發(fā)生機(jī)制都有重要的指導(dǎo)意義。應(yīng)用于基因芯片表達(dá)數(shù)據(jù)的傳統(tǒng)聚類算法可將基因表達(dá)數(shù)據(jù)看成聚類的對(duì)象,將表達(dá)模式類似的基因,也就是共表達(dá)的基因,歸入同一聚類中。傳統(tǒng)聚類是一種全局意義上的聚類,它是以全部樣本作為特征,或以全部基因作為特征進(jìn)行的聚類,只能在數(shù)據(jù)矩陣的行或者列某一方向上進(jìn)行信息相關(guān)性探索,它不能發(fā)現(xiàn)某些條件子集下的局部結(jié)構(gòu)。所以,傳統(tǒng)聚類方法難以找出在某些樣本下參與調(diào)控的基因聚類和與某些基因相關(guān)聯(lián)的樣本?;虮磉_(dá)譜分析的雙聚類方法可在數(shù)據(jù)矩陣的行和列兩個(gè)方向上同時(shí)聚類,能夠發(fā)現(xiàn)基因芯片數(shù)據(jù)中隱藏的大量有用的局部模式,獲得基因的共調(diào)控證據(jù)。為尋找這些信息,Cheng和Church于2000年給出了雙聚類的定義,雙聚類的目的就是在基因表達(dá)數(shù)據(jù)矩陣中尋找滿足條件的子矩陣,使得子矩陣中基因集在對(duì)應(yīng)的條件集上表達(dá)波動(dòng)一致,反之亦然。不同的雙聚類算法采用不同的度量方式,所以能找到的雙聚類有很大差別。近年來(lái),雙聚類局部模式的搜索算法主要是在以下四個(gè)方面進(jìn)行擴(kuò)展:1)通過(guò)傳統(tǒng)聚類分別對(duì)矩陣的行和列進(jìn)行聚類,然后合并這些中間結(jié)果得到最終雙聚類,這類算法無(wú)法完全脫離聚類的全局性,不能很好地尋找局部模式。2)基于貪心迭代搜索方法尋找雙聚類:將雙聚類問(wèn)題視為一個(gè)優(yōu)化問(wèn)題,運(yùn)用貪心策略通過(guò)逐步刪除可以使子矩陣的平均平方殘基降低的行和列,得到一個(gè)最初的雙聚類,此算法每次只能找到一個(gè)雙聚類,且很難找到相互之間有重疊區(qū)的雙聚類,結(jié)果的隨機(jī)性很大。3)采用窮舉策略尋找雙聚類算法,多數(shù)為窮舉小的子矩陣然后合并這些子矩陣的過(guò)程。這個(gè)過(guò)程常常借助圖或者樹(shù)的方式進(jìn)行剪枝或者添力口。雙聚類分析實(shí)質(zhì)上是一個(gè)NP-hard問(wèn)題。所以,使用窮舉策略的雙聚類算法雖然能夠找到較優(yōu)的雙聚類,算法的時(shí)間復(fù)雜度會(huì)隨矩陣規(guī)模的增大而呈指數(shù)增長(zhǎng),其缺陷顯而易見(jiàn),很多算法對(duì)初始矩陣的大小有限制。4)將雙聚類問(wèn)題轉(zhuǎn)化成數(shù)學(xué)或其他模型,應(yīng)用各種方法在矩陣中尋找有規(guī)律的子矩陣。然而,一種數(shù)學(xué)模型只對(duì)應(yīng)一種或少數(shù)的雙聚類類型,算法實(shí)現(xiàn)較復(fù)雜,雙聚類結(jié)果類型單一。雙聚類問(wèn)題的復(fù)雜度依賴于實(shí)際的問(wèn)題構(gòu)建和計(jì)算方法,特別是構(gòu)建優(yōu)化函數(shù)來(lái)評(píng)價(jià)給定雙聚類的質(zhì)量,幾乎所有的計(jì)算方法進(jìn)行雙聚類其復(fù)雜度是NP完全的。協(xié)同免疫算法是一種進(jìn)化計(jì)算技術(shù),是模擬自然界生物免疫進(jìn)化過(guò)程和機(jī)制求解實(shí)際問(wèn)題的一類自組織、自適應(yīng)和自學(xué)習(xí)的一種人工智能技術(shù),雙聚類算法結(jié)合協(xié)同免疫算法,可通過(guò)協(xié)同自適應(yīng)搜索優(yōu)化的方式,找到最優(yōu)雙聚類。近年來(lái)核方法被用在傳統(tǒng)的聚類分析中,核聚類的主要思想是首先通過(guò)一個(gè)非線性映射,將輸入空間中的數(shù)據(jù)點(diǎn)映射到高維特征空間中,通過(guò)選取合適的Mercer核函數(shù)代替非線性映射的內(nèi)積,在特征空間中進(jìn)行聚類。核的聚類方法比經(jīng)典的傳統(tǒng)聚類方法有較大的改進(jìn),通過(guò)非線性映射增加了數(shù)據(jù)點(diǎn)線性可分的概率,即擴(kuò)大數(shù)據(jù)類之間的差異,能較好地分辨、提取并放大有用的特征。當(dāng)各類樣本的邊界是線性不可分以及類分布為非橢圓分布時(shí),經(jīng)典聚類算法失效的情況下,核聚類算法常常能得到更為準(zhǔn)確的聚類。
發(fā)明內(nèi)容
本發(fā)明通過(guò)把核化思想應(yīng)用于雙聚類,將一元核聚類思想拓展應(yīng)用于二元核雙聚類,通過(guò)提出核雙聚類,應(yīng)用核函數(shù)非線性映射,在高維空間的擴(kuò)大數(shù)據(jù)類之間的差異,來(lái)更好地分辨、同時(shí)提取行列雙向特征。提出并行協(xié)同免疫克隆Memetic核雙聚類(CICMKB)實(shí)現(xiàn)算法,通過(guò)采用并行進(jìn)化計(jì)算優(yōu)化策略,在群體中反復(fù)應(yīng)用選擇、變異和交叉等操作,可同時(shí)搜索到既具有多樣性又能達(dá)到全局最優(yōu)的多個(gè)雙聚類,用于解決共表達(dá)基因選取的難題。目前,基于核聚類算法思想的相關(guān)專利有:孫周寶和韓立新公開(kāi)的一種基于流行學(xué)習(xí)的基因表達(dá)數(shù)據(jù)的聚類方法(CN:201110112132.X)。緱水平,焦李成等公開(kāi)了一種基于NJW譜聚類標(biāo)記的圖像分割方法,然而,上述所有的研究都是針對(duì)傳統(tǒng)的一元聚類算法一核方法的拓展。本發(fā)明的目的是為解決生物樣本經(jīng)過(guò)基因表達(dá)芯片技術(shù)處理后,智能獲取共表達(dá)基因的篩選難題。通過(guò)基因芯片組合單片機(jī),應(yīng)用單片機(jī)中的基因分析模塊,來(lái)獲取生物樣本基因表達(dá)譜中共表達(dá)基因。本發(fā)明的一種智能協(xié)同表達(dá)基因分析儀,包括基因芯片和單片機(jī),所述單片機(jī)有四個(gè)模塊組成:一種智能協(xié)同表達(dá)基因分析儀,包括基因芯片和單片機(jī),其特征是所述單片機(jī)有四個(gè)模塊組成:(a)基因芯片表達(dá)譜讀取模塊,用于獲取基因表達(dá)譜數(shù)據(jù),其中包括生物細(xì)胞數(shù)據(jù)、生物組織數(shù)據(jù)、生物血樣數(shù)據(jù);(b)協(xié)同表達(dá)基因提取模塊,用于基因表達(dá)譜分析,提取協(xié)同表達(dá)基因;(C)存儲(chǔ)模塊,對(duì)協(xié)同表達(dá)基因集的分析結(jié)果進(jìn)行保存;(d)輸出模塊,用于分析的結(jié)果輸出;所述協(xié)同表達(dá)基因提取模塊的提取協(xié)同表達(dá)基因過(guò)程包含核函數(shù)選擇、協(xié)同免疫克隆Memetic核雙聚類算法、獲取有重疊的雙聚類和協(xié)同表達(dá)的基因集四部分,具體依次包括以下步驟:(I)將基因芯片表達(dá)譜讀取模塊讀取的基因表達(dá)譜數(shù)據(jù),組成基因表達(dá)譜數(shù)據(jù)集A,所述基因表達(dá)譜數(shù)據(jù)集A是一個(gè)二維表格數(shù)據(jù)集合,對(duì)數(shù)據(jù)集A應(yīng)用9近鄰法進(jìn)行缺失值填補(bǔ);(2)首先從核函數(shù)庫(kù)列表中選擇核函數(shù),默認(rèn)為高斯核函數(shù),其核參數(shù)為I ;下面
(2)(3)兩部分是一個(gè)循環(huán)執(zhí)行,直到輸出最優(yōu)核雙聚類集合;(3)應(yīng)用協(xié)同免疫克隆Memetic核雙聚類算法對(duì)基因表達(dá)譜數(shù)據(jù)集A獲取K個(gè)雙聚類;所述的σ-核雙聚類定義如下:設(shè)一個(gè)nXm 二維關(guān)系表達(dá)實(shí)數(shù)矩陣 A=XXY={Xij} (i e [l,n],j e [l,m]),其中X代表數(shù)據(jù)紀(jì)錄行(X1, X2,..., χη}, Y為對(duì)應(yīng)的屬性列Iy1,12,..., yj,Xij為表達(dá)數(shù)據(jù)矩陣A中的元素。若通過(guò)某映射函數(shù)Φ (X),被投射到高維特征空間F。在高維特征空間F中,設(shè)1、J分別為X、Y的子集,則對(duì)指定的子矩陣B=I X J具有以下總體核行方差RVAR,即為所有記錄X的方差平均,和平均核平方殘差MSR如下:
權(quán)利要求
1.一種智能協(xié)同表達(dá)基因分析儀,包括基因芯片和單片機(jī),其特征是所述單片機(jī)有四個(gè)模塊組成: (a)基因芯片表達(dá)譜讀取模塊,用于獲取基因表達(dá)譜數(shù)據(jù); (b)協(xié)同表達(dá)基因提取模塊,用于基因表達(dá)譜分析,提取協(xié)同表達(dá)基因; (c)存儲(chǔ)模塊,對(duì)協(xié)同表達(dá)基因集的分析結(jié)果進(jìn)行保存; (d)輸出模塊,用于分析的結(jié)果輸出; 所述協(xié)同表達(dá)基因提取模塊的提取協(xié)同表達(dá)基因過(guò)程包含核函數(shù)選擇、協(xié)同免疫克隆Memetic核雙聚類算法、獲取有重疊的雙聚類和協(xié)同表達(dá)的基因集四部分,具體依次包括以下步驟: (1)將基因芯片表達(dá)譜讀取模塊讀取的基因表達(dá)譜數(shù)據(jù),組成基因表達(dá)譜數(shù)據(jù)集A,所述基因表達(dá)譜數(shù)據(jù)集A是一個(gè)二維表格數(shù)據(jù)集合,對(duì)數(shù)據(jù)集A應(yīng)用9近鄰法進(jìn)行缺失值填補(bǔ); (2)首先從核函數(shù)庫(kù)列表中選擇核函數(shù),默認(rèn)為高斯核函數(shù),其核參數(shù)為I;下面(2)(3)兩部分是一個(gè)循環(huán)執(zhí)行,直到輸出最優(yōu)核雙聚類集合; (3)應(yīng)用協(xié)同免疫克隆Memetic的σ-核雙聚類算法對(duì)基因表達(dá)譜數(shù)據(jù)集A獲取K個(gè)雙聚類;所述的σ-核雙聚類定義如下: 設(shè)一個(gè)nXm 二維關(guān)系表達(dá)實(shí)數(shù)矩陣A=XXY= {Xij}(i e [l,n], j e [l,m]),其中X代表數(shù)據(jù)紀(jì)錄行(X1, X2,..., χη}, Y為對(duì)應(yīng)的屬性列Iy1,12,..., yj,Xij為表達(dá)數(shù)據(jù)矩陣A中的元素;若xij通過(guò)某映射函數(shù)Φ (X),被投射到高維特征空間F ;在高維特征空間F中,設(shè)1、J分別為X、Y的子集,則對(duì)指定的子矩陣B=I X J具有以下總體核行方差RVAR即為所有記錄X的方差平均,和平均核平方殘差MSR如下:
2.根據(jù)權(quán)利要求1所述的一種智能協(xié)同表達(dá)基因分析儀,其特征在于,所述的另外一個(gè)核函數(shù)是對(duì)稱正定的距離測(cè)度函數(shù),為線性核函數(shù)、Tricube函數(shù)和Epanechnikov函數(shù)。
3.根據(jù)權(quán)利要求1所述的一種智能協(xié)同表達(dá)基因分析儀,其特征在于,所述的高斯核函數(shù)為
4.根據(jù)權(quán)利要求1所述的一種智能協(xié)同表達(dá)基因分析儀,其特征在于,所述的基因芯片可采集的數(shù)據(jù)包括生 物細(xì)胞數(shù)據(jù)、生物組織數(shù)據(jù)、生物血樣數(shù)據(jù)。
全文摘要
本發(fā)明公開(kāi)了一種智能協(xié)同表達(dá)基因分析儀,包括基因芯片和單片機(jī),利用基因芯片采集技術(shù)獲取生物樣本的基因表達(dá)譜,應(yīng)用單片機(jī)嵌入式分析技術(shù)獲取協(xié)同表達(dá)的基因集。單片機(jī)有四個(gè)模塊組成基因芯片表達(dá)譜讀取模塊;協(xié)同表達(dá)基因提取模塊;存儲(chǔ)模塊;輸出模塊;協(xié)同表達(dá)基因提取模塊的提取協(xié)同表達(dá)基因過(guò)程包含核函數(shù)選擇、協(xié)同免疫克隆Memetic核雙聚類算法、獲取有重疊的雙聚類和協(xié)同表達(dá)的基因集四部分。這種智能協(xié)同表達(dá)基因分析儀可從生物樣本的基因表達(dá)譜中提取\表達(dá)趨勢(shì)一致的基因集和反向表達(dá)相關(guān)的基因集。通過(guò)對(duì)這些共同表達(dá)基因的尋找,不僅可以對(duì)基因的功能研究給予提示,還可以對(duì)基因調(diào)控途徑和調(diào)控網(wǎng)絡(luò)的研究給予啟發(fā)。
文檔編號(hào)G06F19/10GK103164631SQ20131013066
公開(kāi)日2013年6月19日 申請(qǐng)日期2013年4月16日 優(yōu)先權(quán)日2013年4月16日
發(fā)明者丁永生, 程麗俊, 程鐸輝 申請(qǐng)人:東華大學(xué)