本發(fā)明涉及微衛(wèi)星不穩(wěn)定性檢測(cè),特別是涉及一種不依賴對(duì)照和參考基線的微衛(wèi)星不穩(wěn)定性檢測(cè)方法。
背景技術(shù):
1、微衛(wèi)星是一種在真核生物基因組上廣泛分布的短串聯(lián)重復(fù)序列,以1~6個(gè)核苷酸為重復(fù)單元。微衛(wèi)星不穩(wěn)定性(microsatellite?instability,msi)是指dna在復(fù)制時(shí)發(fā)生插入或缺失突變從而引起微衛(wèi)星位點(diǎn)序列長(zhǎng)度發(fā)生變化的現(xiàn)象,這與機(jī)體dna錯(cuò)配修復(fù)缺陷有關(guān)系。msi與多種癌癥的發(fā)生和發(fā)展密切相關(guān)。
2、近年來(lái)的研究也顯示不同msi狀態(tài)的腫瘤患者可從免疫療法中受益情況不同,例如轉(zhuǎn)移性結(jié)直腸癌的免疫療法僅對(duì)具有高微衛(wèi)星不穩(wěn)定性的錯(cuò)配修復(fù)缺陷腫瘤有效,2020年nccn指南明確指出“推薦帕博利珠單抗用于msi-h(microsatellite?instabilityhigh)/dmmr(defective?mismatch?repair)的晚期子宮內(nèi)膜癌以及pd-l1表達(dá)陽(yáng)性或msi-h/dmmr的晚期宮頸癌二線治療”。因此隨著免疫療法在腫瘤治療中的廣泛使用,準(zhǔn)確檢測(cè)患者的msi狀態(tài)對(duì)疾病分型、臨床治療手段、預(yù)后預(yù)測(cè)等都具有重要價(jià)值。
3、常規(guī)的基于ngs進(jìn)行msi檢測(cè)的方法一部分需要腫瘤樣本和陰性對(duì)照樣本,如msisensor基于卡方檢驗(yàn)直接比較腫瘤樣本和健康樣本之間的讀取長(zhǎng)度分布來(lái)判斷位點(diǎn)的突變狀態(tài);另一部分方法需要大量健康人樣本構(gòu)造一些統(tǒng)計(jì)量的參考基線,如msisensor-pro首先通過(guò)正常人樣本來(lái)建模推斷各個(gè)微衛(wèi)星位點(diǎn)在dna正常復(fù)制時(shí)發(fā)生插入和缺失的概率作為該位點(diǎn)的參考基線,然后對(duì)待檢測(cè)樣本判斷其發(fā)生插入或缺失的概率與正常人是否存在顯著差異從而判斷位點(diǎn)是否突變。msings首先也通過(guò)陰性對(duì)照樣本或者mss腫瘤樣本建立每個(gè)位點(diǎn)重復(fù)次數(shù)的數(shù)目的均值和標(biāo)準(zhǔn)差作為參考基線,然后對(duì)待檢測(cè)樣本判斷位點(diǎn)的重復(fù)次數(shù)的數(shù)目是否超過(guò)該位點(diǎn)在陰性對(duì)照或者mss腫瘤樣本統(tǒng)計(jì)得到的(均值+3*標(biāo)準(zhǔn)差)來(lái)判斷位點(diǎn)的穩(wěn)定性。
4、然而,陰性對(duì)照樣本在一些場(chǎng)景下是無(wú)法取得的,這限制了需要腫瘤樣本和陰性對(duì)照樣本的方法的使用,而建立參考基線的方法則需要更多健康人的樣本,收集的困難、測(cè)序的高昂代價(jià)也限制了該種方法的使用。同時(shí),現(xiàn)有msi檢測(cè)方法絕大多數(shù)對(duì)位點(diǎn)沒有做先一步的篩選,或者在進(jìn)行位點(diǎn)篩選時(shí)未充分考慮相同位點(diǎn)在不同癌癥樣本中發(fā)生不穩(wěn)定的頻率存在的差異。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)現(xiàn)有技術(shù)中的上述不足,本發(fā)明提供的一種不依賴對(duì)照和參考基線的微衛(wèi)星不穩(wěn)定性檢測(cè)方法解決了現(xiàn)有方法由于陰性樣本采集受限、未準(zhǔn)確進(jìn)行位點(diǎn)篩選而導(dǎo)致檢測(cè)成本較高,以及準(zhǔn)確率較低的問(wèn)題。
2、為了達(dá)到上述發(fā)明目的,本發(fā)明采用的技術(shù)方案為:一種不依賴對(duì)照和參考基線的微衛(wèi)星不穩(wěn)定性檢測(cè)方法,包括以下步驟:
3、s1:已知待檢測(cè)樣本癌癥類型,根據(jù)其同種癌癥類型的樣本進(jìn)行位點(diǎn)篩選,獲得適用于微衛(wèi)星不穩(wěn)定性檢測(cè)的差異位點(diǎn)集;
4、s2:已知待檢測(cè)樣本癌癥類型,根據(jù)其同種癌癥類型的樣本篩選始終穩(wěn)定且檢測(cè)率滿足要求的恒穩(wěn)定位點(diǎn)集;
5、s3:對(duì)待檢測(cè)樣本的差異位點(diǎn)集和恒穩(wěn)定位點(diǎn)集進(jìn)行測(cè)序,并提取微衛(wèi)星位點(diǎn)的重復(fù)次數(shù)分布;
6、s4:基于重復(fù)次數(shù)分布,對(duì)恒穩(wěn)定位點(diǎn)集提取微衛(wèi)星頻率分布并構(gòu)建參考字典,對(duì)差異位點(diǎn)集根據(jù)其重復(fù)單元提取參考字典中數(shù)據(jù)進(jìn)行皮爾遜相關(guān)性分析,實(shí)現(xiàn)對(duì)位點(diǎn)穩(wěn)定性的判斷;
7、s5:獲得待檢測(cè)樣本不穩(wěn)定位點(diǎn)數(shù)目,并進(jìn)一步獲取當(dāng)前樣本不穩(wěn)定打分;
8、s6:基于當(dāng)前樣本不穩(wěn)定打分,判斷當(dāng)前樣本的微衛(wèi)星不穩(wěn)定性,完成基于單腫瘤的微衛(wèi)星不穩(wěn)定性檢測(cè)。
9、上述方案的有益效果是:本發(fā)明提供的微衛(wèi)星不穩(wěn)定檢測(cè)方法,參照那些在同樣癌癥類型中保守穩(wěn)定的位點(diǎn)的重復(fù)次數(shù)分布來(lái)對(duì)通過(guò)微衛(wèi)星位點(diǎn)篩選方法得到的有效的檢測(cè)位點(diǎn)進(jìn)行穩(wěn)定性判斷,從而對(duì)檢測(cè)樣本進(jìn)行微衛(wèi)星不穩(wěn)定性檢測(cè),解決了現(xiàn)有方法由于陰性樣本采集受限而導(dǎo)致檢測(cè)準(zhǔn)確率較低,以及檢測(cè)成本較高的問(wèn)題。
10、進(jìn)一步地,所述進(jìn)行位點(diǎn)篩選,包括以下分步驟:
11、a1:根據(jù)癌癥類型收集腫瘤和癌旁配對(duì)的微衛(wèi)星不穩(wěn)定陽(yáng)性樣本和陰性樣本;
12、a2:對(duì)微衛(wèi)星不穩(wěn)定陽(yáng)性樣本和陰性樣本進(jìn)行數(shù)據(jù)預(yù)處理、比對(duì)和不穩(wěn)定性檢測(cè),并統(tǒng)計(jì)各樣本的檢測(cè)結(jié)果,去除樣本中檢測(cè)比例低于設(shè)定閾值的位點(diǎn);
13、a3:采用假設(shè)檢驗(yàn)方法檢驗(yàn)保留的位點(diǎn)在微衛(wèi)星不穩(wěn)定陽(yáng)性樣本和陰性樣本中發(fā)生不穩(wěn)定的比例差異;
14、a4:去除假設(shè)檢驗(yàn)方法認(rèn)為在微衛(wèi)星不穩(wěn)定陽(yáng)性樣本和陰性樣本中發(fā)生不穩(wěn)定的比例差異沒有顯著區(qū)別的位點(diǎn),獲得支持所述癌癥類型檢測(cè)微衛(wèi)星不穩(wěn)定性的有效位點(diǎn)集,實(shí)現(xiàn)位點(diǎn)的篩選。
15、上述進(jìn)一步方案的有益效果是:本方案的微衛(wèi)星位點(diǎn)篩選方法用于根據(jù)特定癌癥樣本的測(cè)序數(shù)據(jù),選擇能有效推斷微衛(wèi)星不穩(wěn)定性狀態(tài)的位點(diǎn),提供給微衛(wèi)星不穩(wěn)定性檢測(cè)方法作為檢測(cè)位點(diǎn)集。本發(fā)明充分考慮不同微衛(wèi)星位點(diǎn)發(fā)生不穩(wěn)定性的比例差異,也考慮了位點(diǎn)在不同腫瘤中發(fā)生不穩(wěn)定性的差異性,采用統(tǒng)計(jì)學(xué)方法對(duì)微衛(wèi)星位點(diǎn)進(jìn)行檢驗(yàn),篩選適合樣本的位點(diǎn)組合,提高了檢測(cè)的敏感性。
16、進(jìn)一步地,所述a3中假設(shè)檢驗(yàn)方法為fisher精確檢驗(yàn),所述fisher精確檢驗(yàn)的計(jì)算公式為:
17、
18、其中,a為msi樣本中穩(wěn)定的數(shù)目,b為mss樣本中穩(wěn)定的數(shù)目,c為msi樣本中不穩(wěn)定的數(shù)目,d為mss樣本中不穩(wěn)定的數(shù)目。
19、上述進(jìn)一步方案的有益效果是:通過(guò)采用上述fisher精確檢驗(yàn)來(lái)檢驗(yàn)每個(gè)位點(diǎn)在微衛(wèi)星不穩(wěn)定陽(yáng)性樣本和陰性樣本中發(fā)生不穩(wěn)定變化比例是否存在顯著差異。
20、進(jìn)一步地,所述s4中構(gòu)建參考字典,包括以下分步驟:
21、s41:將恒穩(wěn)定位點(diǎn)集中每個(gè)位點(diǎn)的重復(fù)次數(shù)分布轉(zhuǎn)為重復(fù)次數(shù)頻率分布;
22、s42:對(duì)重復(fù)次數(shù)頻率分布進(jìn)行平移,以最高峰作為中心對(duì)齊,以位點(diǎn)重復(fù)單元作為字典的鍵,將平移后的重復(fù)次數(shù)頻率分布作為值,構(gòu)建參考字典。
23、進(jìn)一步地,所述s4中對(duì)差異位點(diǎn)集根據(jù)其重復(fù)單元提取參考字典中數(shù)據(jù)進(jìn)行皮爾遜相關(guān)性分析,包括以下分步驟:
24、s43:將差異位點(diǎn)集中每個(gè)位點(diǎn)的重復(fù)次數(shù)分布轉(zhuǎn)為重復(fù)次數(shù)頻率分布;
25、s44:對(duì)重復(fù)次數(shù)頻率分布進(jìn)行平移,以最高峰作為中心對(duì)齊,并根據(jù)位點(diǎn)重復(fù)單元取出參考字典中所有的值作為模板;
26、s45:將模板中每個(gè)重復(fù)次數(shù)頻率分布,逐一與當(dāng)前待檢測(cè)位點(diǎn)平移后的重復(fù)次數(shù)頻率分布進(jìn)行皮爾遜相關(guān)性分析。
27、上述進(jìn)一步方案的有益效果是:通過(guò)對(duì)模板中每個(gè)重復(fù)次數(shù)頻率分布與當(dāng)前待檢測(cè)位點(diǎn)平移后的重復(fù)次數(shù)頻率分布進(jìn)行皮爾遜相關(guān)性分析,從而對(duì)當(dāng)前位點(diǎn)穩(wěn)定性進(jìn)行判斷。
28、進(jìn)一步地,所述皮爾遜相關(guān)性分析的計(jì)算公式為:
29、
30、其中,ρx,y為皮爾遜相關(guān)系數(shù),x為模板中一個(gè)重復(fù)次數(shù)頻率分布,y為當(dāng)前待檢測(cè)位點(diǎn)平移后的重復(fù)次數(shù)頻率分布,i為循環(huán)變量,n為x和y的維數(shù),xi為x向量中第i個(gè)元素,yi為y向量中第i個(gè)元素,e(·)為樣本均值。
31、進(jìn)一步地,基于所述皮爾遜相關(guān)性分析,當(dāng)皮爾遜相關(guān)系數(shù)ρx,y大于0.9的數(shù)目超過(guò)所述模板數(shù)量的設(shè)定比例,則當(dāng)前待檢測(cè)位點(diǎn)為穩(wěn)定位點(diǎn)。
32、進(jìn)一步地,所述s5中樣本不穩(wěn)定打分score的計(jì)算公式為:
33、
34、其中,x為不穩(wěn)定數(shù)目,t為總判斷位點(diǎn)集。
35、上述進(jìn)一步方案的有益效果是:通過(guò)將不穩(wěn)定位點(diǎn)數(shù)目除以判斷位點(diǎn)集位點(diǎn)數(shù)目,得到當(dāng)前樣本不穩(wěn)定打分,當(dāng)不穩(wěn)定打分大于某個(gè)閾值,則認(rèn)為當(dāng)前樣本不穩(wěn)定。