本發(fā)明涉及一種基于基因影像學(xué)的腫瘤影像標(biāo)記物提取方法,屬于影像標(biāo)記物領(lǐng)域。
背景技術(shù):
據(jù)世界衛(wèi)生組織報(bào)告,癌癥是全球發(fā)病和死亡的主要原因;在我國(guó),惡性腫瘤已經(jīng)成為我國(guó)居民頭號(hào)殺手。腫瘤領(lǐng)域是當(dāng)下研究的一個(gè)熱點(diǎn),其中一個(gè)重要的挑戰(zhàn)是尋找腫瘤標(biāo)記物,對(duì)于腫瘤早期診斷、預(yù)后以及療效預(yù)測(cè)起至關(guān)重要作用。
現(xiàn)有腫瘤標(biāo)記物提取方法主要基于分子技術(shù),該方法需借助專業(yè)儀器對(duì)病人進(jìn)行活檢或手術(shù),侵入性地獲取出腫瘤局部組織,通過基因測(cè)序或蛋白質(zhì)分子技術(shù),從癌癥的分子機(jī)制去探索發(fā)生的根源,尋找致癌基因的突變位點(diǎn)和其分子表達(dá)通路。結(jié)合病人的臨床分期、生存周期等信息,尋找潛在的腫瘤分子標(biāo)記物。但腫瘤具有很強(qiáng)的空間異質(zhì)性,局部組織并不能代表整個(gè)腫瘤的全局特征;這可能會(huì)導(dǎo)致分子標(biāo)記物研究的可變性和不一致性。另外,現(xiàn)階段分子技術(shù)的不成熟、成本高,制約著其在臨床的常規(guī)應(yīng)用。因此,探索無侵入的可替代標(biāo)記物是一個(gè)重要的研究目標(biāo)。
影像學(xué)方法已用于臨床的常規(guī)診斷。其中,ct作為最常見的成像方式,可無侵入、重復(fù)地描述腫瘤的解剖學(xué)特征。在一些腫瘤影像學(xué)標(biāo)記物提取方法中,基于ct的定量特征,如腫瘤大小、邊界等被證明與腫瘤分期,生存周期和療效相關(guān)。而新興領(lǐng)域——基因影像學(xué),將影像特征和分子機(jī)制相關(guān)聯(lián),嘗試用從基因?qū)哟稳ソ忉尯暧^的影像學(xué)特征。然而,基因影像學(xué)大部分研究集中在兩者的關(guān)聯(lián),尚未發(fā)現(xiàn)其在影像標(biāo)記物領(lǐng)域的應(yīng)用。
技術(shù)實(shí)現(xiàn)要素:
基于分子技術(shù)的生物標(biāo)記物提取方法,缺點(diǎn)是侵入性、局部描述、成本高。
導(dǎo)致原因:分子技術(shù)需侵入性地取腫瘤局部組織,因而只能分析腫瘤局部特征;整個(gè)過程需借助專門儀器和基因測(cè)序或蛋白質(zhì)技術(shù),尚未成熟,成本高。
基于影像學(xué)的生物標(biāo)記物提取方法,缺點(diǎn)是不穩(wěn)定、缺乏生物學(xué)解釋。
導(dǎo)致原因:提取的影像特征是定性或半定量,主觀性強(qiáng),可重復(fù)性差,因而并不穩(wěn)定。由于腫瘤ct的影像學(xué)特征是腫瘤宏觀上的信息,缺乏其背后的生物學(xué)解釋。
因此針對(duì)上述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明提出通過提取腫瘤ct的高維定量影像特征,與對(duì)應(yīng)的腫瘤基因表達(dá)模式進(jìn)行關(guān)聯(lián)的一種方法;并假設(shè)某些定量影像特征可以反映腫瘤的特定基因表達(dá)模式,作為腫瘤的預(yù)后標(biāo)記物。解決的實(shí)際問題在于提出一種最終提取無侵入、生物學(xué)可解釋的影像學(xué)標(biāo)記物的提取方法。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案。
本發(fā)明提出了一種基于基因影像學(xué)的影像學(xué)標(biāo)記物提取方法,包括以下步驟:
腫瘤ct影像分析、腫瘤基因表達(dá)數(shù)據(jù)分析、基因影像關(guān)聯(lián)分析、關(guān)聯(lián)影像特征的預(yù)后評(píng)估。具體過程如下:
1)腫瘤ct影像分析;根據(jù)腫瘤ct影像,放射科醫(yī)師手動(dòng)或自動(dòng)分割算法勾畫腫瘤區(qū)域,針對(duì)腫瘤區(qū)域,計(jì)算4組共639個(gè)特征,分別為一階統(tǒng)計(jì)特征,幾何形狀特征,紋理特征以及小波特征;
2)腫瘤基因表達(dá)數(shù)據(jù)分析;基因表達(dá)數(shù)據(jù)的處理分為三步,
第一步,預(yù)處理,若某個(gè)基因表達(dá)值為0的樣本個(gè)數(shù)超過第一閾值或所有樣本的平均表達(dá)值小于第二閾值,則該基因剔除,對(duì)篩選后的基因表達(dá)值進(jìn)行對(duì)數(shù)和標(biāo)準(zhǔn)化處理;
第二步,基因模塊聚類,對(duì)基因表達(dá)值進(jìn)行權(quán)重共表達(dá)網(wǎng)絡(luò)分析,將基因表達(dá)值自動(dòng)聚類成若干個(gè)基因模塊,用每個(gè)基因模塊的主成分代表該基因模塊;
第三步,對(duì)基因模塊進(jìn)行生存分析,按照p<0.05標(biāo)準(zhǔn),篩選出具有顯著預(yù)后的基因模塊;
3)基因影像關(guān)聯(lián)分析;利用spearman相關(guān)法,將篩選后的影像特征和基因模塊做關(guān)聯(lián)熱圖,得到每個(gè)影像特征與基因模塊的相關(guān)系數(shù)和p值;
4)關(guān)聯(lián)影像特征的預(yù)后評(píng)估;在基因影像關(guān)聯(lián)熱圖中,按照p<0.05標(biāo)準(zhǔn),篩選出顯著的基因-影像關(guān)聯(lián)對(duì),對(duì)關(guān)聯(lián)對(duì)中出現(xiàn)的影像特征做生存分析評(píng)估,得到預(yù)后的影像特征,有潛力作為生物可解釋的影像學(xué)標(biāo)記物。
進(jìn)一步地,選取所述一階統(tǒng)計(jì)特征中的最大值,最小值,平均值,絕對(duì)誤差,中位數(shù),區(qū)間差,均方誤差,標(biāo)準(zhǔn)差,方差,不均勻度,峰度,偏度,能量,熵特征。
進(jìn)一步地,選取所述幾何形狀特征中的表面積,體積,最大直徑,壓縮比1,壓縮比2,橢球度,圓球度,表面積與體積比,渾圓度特征。
進(jìn)一步地,選取所述紋理特征中的子類特征共生矩陣、灰度游程矩陣、灰度級(jí)區(qū)域矩陣和鄰域灰度差分矩陣特征。
進(jìn)一步地,選取所述共生矩陣中的自相關(guān),對(duì)比度,相關(guān)1,相關(guān)2,集群突,聚類萌,集群趨勢(shì),不相似性,能量,熵,均勻性1,均勻性2,最大概率,平方和,平均數(shù),和方差,和熵,差方差,方差,差熵,相關(guān)信息測(cè)度1,相關(guān)信息測(cè)度2,逆方差,逆差歸一化,逆差矩歸一化特征。
進(jìn)一步地,選取所述灰度游程矩陣中的短游程增強(qiáng),長(zhǎng)游程增強(qiáng),灰度級(jí)不均勻度,游程不均勻度,游程比例,低灰度級(jí)游程增強(qiáng),高灰度級(jí)游程增強(qiáng),短游程低灰度級(jí)增強(qiáng),短游程高灰度級(jí)增強(qiáng),長(zhǎng)游程低灰度級(jí)增強(qiáng),長(zhǎng)游程高灰度級(jí)增強(qiáng),灰度級(jí)方差,游程方差特征。
進(jìn)一步地,選取所述灰度級(jí)區(qū)域矩陣中的小區(qū)域增強(qiáng),大區(qū)域增強(qiáng),灰度級(jí)不均勻度,區(qū)域大小不均勻度,區(qū)域比例,低灰度級(jí)區(qū)域增強(qiáng),高灰度級(jí)區(qū)域增強(qiáng),小區(qū)域低灰度級(jí)增強(qiáng),小區(qū)域高灰度級(jí)增強(qiáng),大區(qū)域低灰度級(jí)增強(qiáng),大區(qū)域高灰度級(jí)增強(qiáng),灰度級(jí)方差,區(qū)域大小方差特征。
進(jìn)一步地,選取所述鄰域灰度差分矩陣中的粗糙度,對(duì)比度,繁忙度,復(fù)雜度,強(qiáng)度特征。
進(jìn)一步地,選取所述小波特征中的一階統(tǒng)計(jì)特征和紋理特征;具體包括xlll*(70)、xllh*(70)、xlhl*(70)、xlhh*(70)、xhll*(70)、xhll*(70)、xhhl*(70)、xhhh*(70),其中,*號(hào)代表小波分解量在x,y,z上的高頻(h)或低頻分量(l)。
優(yōu)選地,其中xhlh分量,為x,z方向上高頻,在y方向上低頻的分量,該分量小波分解公式為
附圖說明
圖1為基于基因影像學(xué)的腫瘤影像標(biāo)記物提取方法的流程圖。
表1為影像特征的組合。
具體實(shí)施方式
結(jié)合說明書附圖說明本發(fā)明的具體實(shí)施方式。
如圖1所示的基于基因影像學(xué)的腫瘤影像標(biāo)記物提取方法的流程圖,本發(fā)明的一種基于基因影像學(xué)的影像學(xué)標(biāo)記物提取方法首先獲取腫瘤ct數(shù)據(jù),然后進(jìn)行腫瘤ct影像分析,獲取得到的影像特征與預(yù)后的基因模塊進(jìn)行spearman關(guān)聯(lián),得到基因影像關(guān)聯(lián)熱圖,根據(jù)上述過程所得關(guān)聯(lián)熱圖和選取的關(guān)聯(lián)影像特征,進(jìn)行生存分析評(píng)估,得到一種生物學(xué)可解釋的影像學(xué)標(biāo)記物。
上述預(yù)后的基因模塊通過以下步驟獲得,首先基因表達(dá)數(shù)據(jù)進(jìn)行基因組分析和模塊聚類,進(jìn)一步地,基因模塊通過生存分析得到預(yù)后的基因模塊。
如表1所示的影像特征的組合,結(jié)合圖1所示的基于基因影像學(xué)的腫瘤影像標(biāo)記物提取方法,進(jìn)而得到一種基于基因影像學(xué)的腫瘤影像標(biāo)記物提取方法,具體實(shí)現(xiàn)過程如下:
1)根據(jù)腫瘤ct影像,放射科醫(yī)師手動(dòng)或自動(dòng)分割算法勾畫腫瘤區(qū)域。針對(duì)腫瘤區(qū)域,計(jì)算4組共639個(gè)特征,分別為一階統(tǒng)計(jì)特征,幾何形狀特征,紋理特征以及小波特征,如表1所示。為了去冗余,選取最有代表性的特征,根據(jù)一致性指數(shù)標(biāo)準(zhǔn),選取每組中ci值最大的3個(gè)特征;
表1影像特征的組合
*代表小波分解量在x,y,z上的高頻(h)或低頻分量(l),例如xhlh分量,為x,z方向上高頻,在y方向上低頻的分量,該分量小波分解公式為
2)基因表達(dá)數(shù)據(jù)的處理分為三步。第一步,預(yù)處理,若某個(gè)基因表達(dá)值為0的樣本個(gè)數(shù)超過10或所有樣本的平均表達(dá)值小于8,則該基因剔除,對(duì)篩選后的基因表達(dá)值進(jìn)行對(duì)數(shù)和標(biāo)準(zhǔn)化處理;第二步,基因模塊聚類,對(duì)基因表達(dá)值進(jìn)行權(quán)重共表達(dá)網(wǎng)絡(luò)分析(weightedgeneco-expressionnetworkanalysis,wgcna),將基因表達(dá)值自動(dòng)聚類成若干個(gè)基因模塊,用每個(gè)基因模塊的主成分代表該基因模塊;第三步,對(duì)基因模塊進(jìn)行生存分析,按照p<0.05標(biāo)準(zhǔn),篩選出具有顯著預(yù)后的基因模塊;
3)利用spearman相關(guān)法,將篩選后的影像特征和基因模塊做關(guān)聯(lián)熱圖,得到每個(gè)影像特征與基因模塊的相關(guān)系數(shù)和p值;
4)在基因影像關(guān)聯(lián)熱圖中,按照p<0.05標(biāo)準(zhǔn),篩選出顯著的基因-影像關(guān)聯(lián)對(duì),對(duì)關(guān)聯(lián)對(duì)中出現(xiàn)的影像特征做生存分析評(píng)估,得到預(yù)后的影像特征,有潛力作為生物可解釋的影像學(xué)標(biāo)記物。