本發(fā)明涉及生物信息學(xué),尤其涉及一種基于大語言模型的實(shí)現(xiàn)基因組拷貝數(shù)變異自動(dòng)化解讀的方法。
背景技術(shù):
1、拷貝數(shù)變異(copy?number?variation,cnv)作為一種重要的遺傳變異形式,在多種遺傳疾病的研究與診斷中扮演著關(guān)鍵角色。基因組拷貝數(shù)變異(copy?number?variant,cnv)與多種人類疾病相關(guān)。為尋找“發(fā)育遲緩、智力低下、多發(fā)畸形”患兒、反復(fù)自然流產(chǎn)患者、以及產(chǎn)前超聲提示結(jié)構(gòu)畸形胎兒等病例的遺傳學(xué)病因,全基因組拷貝數(shù)變異檢測(cè)已成為臨床一線的檢查手段。
2、拷貝數(shù)變異檢測(cè)結(jié)果的解讀涉及大量的生物信息學(xué)分析、基因組學(xué)原理以及臨床病理聯(lián)系,使得cnv檢測(cè)結(jié)果解讀的編寫工作尤為艱巨。cnv的類型多樣,包括缺失、重復(fù)、倒位等多種變異形式,每一種變異可能對(duì)應(yīng)不同的生物學(xué)效應(yīng)和臨床意義。準(zhǔn)確理解并區(qū)分這些變異對(duì)疾病的發(fā)生發(fā)展所起的作用是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。盡管cnv檢測(cè)技術(shù)不斷發(fā)展,但在轉(zhuǎn)化為臨床實(shí)踐時(shí),如何將復(fù)雜的遺傳變異信息整合入現(xiàn)有的診療流程,并轉(zhuǎn)化成清晰、實(shí)用的報(bào)告語言,是目前的一大難點(diǎn)。cnv檢測(cè)及其報(bào)告撰寫也受到地區(qū)間醫(yī)療資源和技術(shù)力量差異的影響。尤其是在欠發(fā)達(dá)或偏遠(yuǎn)地區(qū),受限于技術(shù)和人才資源,使有效實(shí)施cnv檢測(cè)及準(zhǔn)確解讀報(bào)告變得更為困難。近年來,雖然已發(fā)展出多種cnv檢測(cè)技術(shù),如染色體微陣列分析、基于高通量測(cè)序的基因組拷貝數(shù)變異檢測(cè)技術(shù),但是這些技術(shù)檢出的大量拷貝數(shù)變異,給數(shù)據(jù)分析和遺傳咨詢帶來了極大的挑戰(zhàn)。
3、在當(dāng)前的醫(yī)療科技領(lǐng)域,隨著大數(shù)據(jù)和人工智能技術(shù)的快速發(fā)展,特別是在自然語言處理(nlp)方面的進(jìn)步,使用大模型輔助醫(yī)學(xué)檢測(cè)報(bào)告的解讀已經(jīng)成為前沿研究的重要方向。傳統(tǒng)的醫(yī)學(xué)檢測(cè)報(bào)告解讀過程高度依賴醫(yī)生的專業(yè)知識(shí)和經(jīng)驗(yàn),而這一過程可能受到主觀因素的影響,且在面對(duì)海量數(shù)據(jù)時(shí)效率有限。而未經(jīng)專業(yè)化適配的原始模型并未針對(duì)醫(yī)學(xué)語境下的專業(yè)術(shù)語、病理生理學(xué)表述以及復(fù)雜醫(yī)學(xué)檢測(cè)指標(biāo)的邏輯關(guān)系進(jìn)行特異性優(yōu)化。
4、遺傳學(xué)報(bào)告與大部分影像學(xué)或檢驗(yàn)數(shù)值報(bào)告不同,人類遺傳物質(zhì)有6gb以上,其拷貝數(shù)變異檢測(cè)結(jié)果由位置、大小、拷貝數(shù)變異情況三個(gè)要素構(gòu)成。其結(jié)果解釋更是需要考慮基因、區(qū)域等因素進(jìn)行相關(guān)致病性評(píng)級(jí)和分析?;诖耍柩邪l(fā)一種對(duì)拷貝數(shù)變異(cnv)病例檢測(cè)報(bào)告能準(zhǔn)確、可靠解讀的方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要解決目前臨床上無法對(duì)各種拷貝數(shù)變異(cnv)檢測(cè)結(jié)果做準(zhǔn)確解讀的技術(shù)問題,提供一種實(shí)現(xiàn)基因組拷貝數(shù)變異自動(dòng)化解讀方法,該方法能對(duì)基因組拷貝數(shù)變異檢測(cè)結(jié)果進(jìn)行準(zhǔn)確可靠的智能化解讀,使cnv數(shù)據(jù)分析的工作效率得到大幅提升。
2、為了解決上述技術(shù)問題,本發(fā)明通過如下技術(shù)方案實(shí)現(xiàn):
3、在本發(fā)明的一個(gè)方面,提供了一種實(shí)現(xiàn)基因組拷貝數(shù)變異自動(dòng)化解讀的方法,包括以下步驟:
4、獲取chatglm-6b的大語言模型;
5、建立基因組拷貝數(shù)變異檢測(cè)結(jié)果解讀數(shù)據(jù)集,并對(duì)該數(shù)據(jù)脫敏,糾偏,規(guī)范化,以及轉(zhuǎn)換為訓(xùn)練數(shù)據(jù);
6、使用低秩適應(yīng)算法對(duì)所述大語言模型進(jìn)行調(diào)整學(xué)習(xí),使該大語言模型獲取針對(duì)拷貝數(shù)變異結(jié)果報(bào)告解讀能力;
7、在調(diào)整學(xué)習(xí)的大語言模型中,設(shè)計(jì)多個(gè)提示詞(prompts)得到相應(yīng)的輸入-輸出對(duì),人工對(duì)齊該輸入-輸出對(duì),用強(qiáng)化學(xué)習(xí)算法對(duì)所述模型進(jìn)行二次調(diào)整;
8、產(chǎn)生新的拷貝數(shù)變異檢測(cè)結(jié)果解讀數(shù)據(jù)集。
9、優(yōu)選的,所述新的拷貝數(shù)變異檢測(cè)結(jié)果解讀數(shù)據(jù)集在產(chǎn)生之后,通過在線學(xué)習(xí)模塊在線學(xué)習(xí)并持續(xù)微調(diào)。
10、優(yōu)選的,所述對(duì)數(shù)據(jù)脫敏是針對(duì)用戶隱私敏感信息的脫敏,使用哈希編碼算法對(duì)用戶信息完成密文編碼轉(zhuǎn)換;
11、和/或,所述對(duì)數(shù)據(jù)糾偏是針對(duì)歷史數(shù)據(jù)出現(xiàn)的錯(cuò)誤數(shù)據(jù)和陳述進(jìn)行人工糾偏,以獲取正確信息用于模型訓(xùn)練;
12、和/或,所述對(duì)數(shù)據(jù)規(guī)范化是將格式不統(tǒng)一的結(jié)果解讀數(shù)據(jù)統(tǒng)一處理到一般性的格式,以調(diào)整模型訓(xùn)練;
13、和/或,所述轉(zhuǎn)換為訓(xùn)練數(shù)據(jù)是將結(jié)果解讀數(shù)據(jù)的形式轉(zhuǎn)換為自然語言問題-自然語言答案的訓(xùn)練數(shù)據(jù)格式。
14、優(yōu)選的,所述使用低秩適應(yīng)算法對(duì)大語言模型進(jìn)行調(diào)整學(xué)習(xí),包括以下步驟:
15、在初始化階段,對(duì)于預(yù)訓(xùn)練模型中待微調(diào)的自注意力層的權(quán)重矩陣,將其視為固定的原始參數(shù)矩陣w0;為每個(gè)待調(diào)整的矩陣定義兩個(gè)低秩矩陣a和b,其中a∈rr×k,b∈rd×r,r是遠(yuǎn)小于d和k的秩,d和k分別代表原始權(quán)重矩陣的行數(shù)和列數(shù),用高斯分布初始化矩陣a,初始化b為零矩陣;
16、在訓(xùn)練階段,交替使用隨機(jī)梯度下降方案訓(xùn)練低秩矩陣a和b,使模型的更新僅通過δw=ba實(shí)現(xiàn),該δw是相對(duì)于原始參數(shù)的調(diào)整變化;使用目標(biāo)任務(wù)的數(shù)據(jù)集訓(xùn)練模型,優(yōu)化損失函數(shù)以獲得最優(yōu)的a和b;
17、在應(yīng)用階段,w=w0+δw形成新的參數(shù)矩陣,然后使用w去做調(diào)整大模型的拷貝數(shù)變異結(jié)果解讀推理。
18、在本發(fā)明的一些實(shí)施例中,使用低秩適應(yīng)算法對(duì)大語言模型進(jìn)行調(diào)整這個(gè)步驟,使用了16個(gè)rtx?gpus,超過72小時(shí)的總算力成本。
19、優(yōu)選的,所述人工對(duì)齊該輸入-輸出對(duì),用強(qiáng)化學(xué)習(xí)模塊對(duì)模型進(jìn)行二次調(diào)整,包括以下步驟:
20、對(duì)輸入-輸出對(duì)進(jìn)行人工審核,如果不符合人類價(jià)值觀或者非合理的回答,則加入回答評(píng)分,構(gòu)建負(fù)樣本集合評(píng)分,所述加入的回答評(píng)分包括:“以下回答是不合理的”、或“以下回答是不正確的”、或“以下回答是不符合價(jià)值觀的”;
21、通過強(qiáng)化學(xué)習(xí)中的ppo(proximal?policy?optimization),利用評(píng)分更新上述低秩矩陣b/a,得到δw’=b’a’;
22、應(yīng)用w=w0+δw’,然后使用w去做調(diào)整大模型的拷貝數(shù)變異結(jié)果解讀推理。
23、優(yōu)選的,所述在線學(xué)習(xí)模塊包括:
24、新數(shù)據(jù)的清洗函數(shù),用于清洗和整理新的結(jié)果解讀數(shù)據(jù)為統(tǒng)一的模型要求格式,并將結(jié)果解讀數(shù)據(jù)轉(zhuǎn)換成自然語言問題-自然語言回答的配對(duì);
25、學(xué)習(xí)模塊,其訓(xùn)練模式是將新的數(shù)據(jù)作為調(diào)整數(shù)據(jù)集,用上述方法訓(xùn)練w”,秩參數(shù)r的設(shè)置與當(dāng)前微調(diào)模型的秩參數(shù)保持一致;
26、應(yīng)用模塊,應(yīng)用w=w0+δw”,然后使用w去做微調(diào)大模型的拷貝數(shù)變異結(jié)果解讀推理。
27、在本發(fā)明的另一方面,還提供了一種實(shí)現(xiàn)基因組拷貝數(shù)變異自動(dòng)化解讀的裝置,包括:
28、存儲(chǔ)器,用于存儲(chǔ)程序;
29、處理器,用于執(zhí)行所述存儲(chǔ)器存儲(chǔ)的程序,以實(shí)現(xiàn)基于大語言模型的基因組拷貝數(shù)變異自動(dòng)化解讀方法。
30、在本發(fā)明的另一方面,還提供了一種基因組拷貝數(shù)變異自動(dòng)化分析系統(tǒng),包括:
31、實(shí)現(xiàn)基因組拷貝數(shù)變異自動(dòng)化解讀的裝置,用于將大語言模型進(jìn)行訓(xùn)練、調(diào)整學(xué)習(xí),使其獲得針對(duì)拷貝數(shù)變異結(jié)果報(bào)告解讀能力;
32、信息輸入模塊,用于輸入待分析的拷貝數(shù)變異數(shù)據(jù);
33、數(shù)據(jù)分析語句生成模塊,使經(jīng)過訓(xùn)練學(xué)習(xí)的大語言模型自動(dòng)對(duì)輸入的拷貝數(shù)變異數(shù)據(jù)進(jìn)行解讀,并輸出相應(yīng)結(jié)果。
34、在本發(fā)明的另一方面,還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其存儲(chǔ)有程序,所述程序能夠被處理器執(zhí)行,以實(shí)現(xiàn)上述基因組拷貝數(shù)變異自動(dòng)化解讀方法。
35、本發(fā)明實(shí)現(xiàn)基因組拷貝數(shù)變異自動(dòng)化解讀的方法,通過對(duì)大語言模型進(jìn)行定向訓(xùn)練與性能優(yōu)化,使其能夠理解并精準(zhǔn)解釋cnv檢測(cè)報(bào)告中的各類專業(yè)信息,使大語言模型最有效地應(yīng)用于cnv片段解讀。而且,本發(fā)明的大語言模型具有不間斷學(xué)習(xí)和自我更新能力,可以很好的應(yīng)對(duì)cnv解讀結(jié)果經(jīng)常更新的情況。此外,本發(fā)明系統(tǒng)使用十分方便,只需輸入cnv信息,便可得到自動(dòng)解讀cnv片段的檢測(cè)報(bào)告,從而有效輔助臨床遺傳病例的診斷,具有廣闊的應(yīng)用前景。