欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及方法與流程

文檔序號:12887715閱讀:469來源:國知局
預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及方法與流程

本發(fā)明涉及蛋白質(zhì)遠(yuǎn)同源性檢測技術(shù)領(lǐng)域,尤其涉及一種預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及方法。



背景技術(shù):

蛋白質(zhì)遠(yuǎn)同源性檢測是生物信息學(xué)領(lǐng)域中的一個熱點問題。蛋白質(zhì)的遠(yuǎn)同源性指的是蛋白質(zhì)之間序列相似度較低,但結(jié)構(gòu)和功能相似度較高。通過蛋白質(zhì)遠(yuǎn)同源性檢測,能夠提高蛋白質(zhì)結(jié)構(gòu)預(yù)測的準(zhǔn)確度。

在這個問題上,最早是序列匹配的方法;然后是基于判別式方法,基于傳統(tǒng)機器學(xué)習(xí)的方法致力于人工提取特征的方式和核方法的改進(jìn)。

其中,基于序列匹配的方法是最早也最廣泛應(yīng)用的方法。但在序列相似度較低的情況下,該方法不能解決蛋白質(zhì)遠(yuǎn)同源性檢測問題。

而在判別式方法中,使用傳統(tǒng)機器學(xué)習(xí)模型的方法的性能,很大程度上依賴于其人工構(gòu)建特征的質(zhì)量。由于對蛋白質(zhì)知識的局限,人工構(gòu)建的特征往往忽略了一些信息,大多提取的蛋白質(zhì)信息量不夠,影響預(yù)測性能。例如,目前已知的特征構(gòu)建方法中,只引入了蛋白質(zhì)子序列間相對位置關(guān)系,而忽略了其在整條序列上的絕對位置。而且,雖然一些基于比對的核方法取得了優(yōu)良的效果,但是它存在耗時較長的問題。

另外,其他基于深度學(xué)習(xí)的方法是由一個lstm(long-shorttermmemory,一種遞歸神經(jīng)網(wǎng)絡(luò))層和一個輸出層組成。它只利用了lstm在最后一個時間步上產(chǎn)生的輸出作為蛋白質(zhì)的表示向量,輸送到輸出層分類。而蛋白質(zhì)序列較長,只用最后一個輸出無法很好的捕捉子序列間的長依賴關(guān)系。并且,這個蛋白質(zhì)表示向量中蘊含的依賴關(guān)系信息無法尋找到對應(yīng)的蛋白質(zhì)子序列,從而難以分析。此外,它基于蛋白質(zhì)序列譜來預(yù)測蛋白質(zhì)遠(yuǎn)同源性,導(dǎo)致計算復(fù)雜度大大增加。



技術(shù)實現(xiàn)要素:

本發(fā)明的主要目的在于提供一種預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及方法,無需人工構(gòu)建特征和生成序列譜,節(jié)省時間,并提高預(yù)測的準(zhǔn)確性。

為了達(dá)到上述目的,本發(fā)明提出一種預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括:依次連接的輸入層、lstm層、隨時間分布的全連接層和輸出層,其中:

所述輸入層,用于獲取輸入的原始的蛋白質(zhì)序列,將原始的蛋白質(zhì)序列轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)能夠處理的輸入矩陣;

所述lstm層,用于捕捉蛋白質(zhì)序列中子序列間的依賴關(guān)系,在每個時間步上輸出當(dāng)前輸入子序列的特征,所述當(dāng)前輸入子序列的特征包含其上下文依賴關(guān)系;

所述隨時間分布的全連接層,用于對所述lstm層中的不同memorycell的輸出以不同的權(quán)重,匯總依賴關(guān)系信息;

所述輸出層,用于根據(jù)所述隨時間分布的全連接層在每個時間步上的輸出連接而成的向量,預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系。

其中,所述lstm層包括單向lstm層和雙向lstm層。

其中,所述單向lstm層用于將蛋白質(zhì)序列從左到右進(jìn)行處理,在某個時間步上的輸出,包含了當(dāng)前輸入子序列和在其左邊的子序列間的依賴關(guān)系。

其中,所述雙向lstm層由一個前向lstm層和一個后向lstm層組成,分別從蛋白質(zhì)序列的前端和后端開始處理,其中,對于同一個輸入蛋白質(zhì)子序列,前向lstm層的輸出和后向lstm層的輸出被連接成一個向量,前向lstm層用于捕捉該輸入蛋白質(zhì)子序列與在它左邊的子序列之間的依賴關(guān)系,后向lstm層用于捕捉該輸入蛋白質(zhì)子序列與在它右邊的子序列之間的依賴關(guān)系。

其中,所述輸出層預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系包括:產(chǎn)生一個預(yù)測輸入蛋白質(zhì)屬于某個超家族的概率。

本發(fā)明還提出一種預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系的方法,包括以下步驟:

通過輸入層獲取輸入的原始的蛋白質(zhì)序列,將原始的蛋白質(zhì)序列轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)能夠處理的輸入矩陣;

通過lstm層捕捉蛋白質(zhì)序列中子序列間的依賴關(guān)系,在每個時間步上輸出可以看作當(dāng)前輸入子序列的特征,所述當(dāng)前輸入子序列的特征包含其上下文依賴關(guān)系;

通過隨時間分布的全連接層對所述lstm層中的不同memorycell的輸出以不同的權(quán)重,匯總依賴關(guān)系信息;

通過輸出層根據(jù)所述隨時間分布的全連接層在每個時間步上的輸出連接而成的向量,預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系。

其中,所述lstm層為單向lstm層;所述通過lstm層捕捉蛋白質(zhì)序列中子序列間的依賴關(guān)系,在每個時間步上輸出當(dāng)前輸入子序列的特征的步驟包括:將蛋白質(zhì)序列從左到右進(jìn)行處理,在某個時間步上的輸出,包含了當(dāng)前輸入子序列和在其左邊的子序列間的依賴關(guān)系。

其中,所述lstm層為雙向lstm層,所述雙向lstm層由一個前向lstm層和一個后向lstm層組成;所述通過lstm層捕捉蛋白質(zhì)序列中子序列間的依賴關(guān)系,在每個時間步上輸出當(dāng)前輸入子序列的特征的步驟包括:

前向lstm層和后向lstm層分別從蛋白質(zhì)序列的前端和后端開始處理,其中,對于同一個輸入蛋白質(zhì)子序列,前向lstm層的輸出和后向lstm層的輸出被連接成一個向量,通過前向lstm層捕捉該輸入蛋白質(zhì)子序列與在它左邊的子序列之間的依賴關(guān)系,通過后向lstm層捕捉該輸入蛋白質(zhì)子序列與在它右邊的子序列之間的依賴關(guān)系。

本發(fā)明設(shè)計了一種預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及方法,基于深度學(xué)習(xí)技術(shù),提出一個四層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系,該發(fā)明能自動從原始蛋白質(zhì)序列中發(fā)掘其特征,并偵測蛋白質(zhì)子序列間的依賴關(guān)系,匯總依賴信息,從而分類。因此,它無需人工構(gòu)建特征和生成序列譜,節(jié)省了大量時間,并提高了預(yù)測的準(zhǔn)確性。

與傳統(tǒng)用lstm做單分類的方式不同,本發(fā)明利用了lstm在每個時間步上的輸出作為當(dāng)前輸入蛋白質(zhì)子序列的特征,包含了其上下文依賴關(guān)系,然后,使用一個隨時間分布的全連接網(wǎng)絡(luò),來給lstm中同一個memoryblock中不同memorycell的輸出以不同的權(quán)重,從而達(dá)到匯總子序列間依賴關(guān)系的目的。在lstm層,本發(fā)明采用了兩種結(jié)構(gòu),一種使用單向lstm,一種使用雙向lstm,使用雙向lstm更適合該網(wǎng)絡(luò)結(jié)構(gòu),由此取得了更好的性能,適用于對預(yù)測精度要求較高的場景。

附圖說明

圖1和圖2分別是本發(fā)明預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系的兩種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖。

圖3是本發(fā)明預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系的方法的流程示意圖。

為了使本發(fā)明的技術(shù)方案更加清楚、明了,下面將結(jié)合附圖作進(jìn)一步詳述。

具體實施方式

應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

參照圖1和圖2,圖1和圖2是本發(fā)明預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系的兩種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖。圖1是使用單向lstm作為lstm層的網(wǎng)絡(luò)結(jié)構(gòu)圖,圖2是使用雙向lstm作為lstm層的網(wǎng)絡(luò)結(jié)構(gòu)圖。

如圖1和圖2所示,本發(fā)明提出一種預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),為一個四層神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括:依次連接的輸入層、lstm層、隨時間分布的全連接層和輸出層,其中:

所述輸入層,用于獲取輸入的原始的蛋白質(zhì)序列,將原始的蛋白質(zhì)序列轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)能夠處理的輸入矩陣;

所述lstm層,用于捕捉蛋白質(zhì)序列中子序列間的依賴關(guān)系,在每個時間步上輸出當(dāng)前輸入子序列的特征,所述當(dāng)前輸入子序列的特征包含其上下文依賴關(guān)系;

所述隨時間分布的全連接層,用于對所述lstm層中的不同memorycell的輸出以不同的權(quán)重,匯總依賴關(guān)系信息;

所述輸出層,用于根據(jù)所述隨時間分布的全連接層在每個時間步上的輸出連接而成的向量,預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系。

其中,在lstm層,可以使用單向lstm層和雙向lstm層兩種,其網(wǎng)絡(luò)結(jié)構(gòu)分別由圖1和圖2所示。圖1是使用單向lstm作為lstm層的網(wǎng)絡(luò)結(jié)構(gòu)圖,圖2是使用雙向lstm作為lstm層的網(wǎng)絡(luò)結(jié)構(gòu)圖。

本發(fā)明基于深度學(xué)習(xí)技術(shù),提出一個四層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系。該發(fā)明能自動從原始蛋白質(zhì)序列中發(fā)掘其特征,并偵測蛋白質(zhì)子序列間的依賴關(guān)系,匯總依賴信息,從而分類。因此,它無需人工構(gòu)建特征和生成序列譜,節(jié)省了大量時間,并提高了預(yù)測的準(zhǔn)確性。

以下詳細(xì)闡述本發(fā)明四層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的原理:

具體地,其中,輸入層的作用為將原始的蛋白質(zhì)序列轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)能夠處理的輸入矩陣。

lstm是一種循環(huán)神經(jīng)網(wǎng)絡(luò),它由memoryblock隨時間展開而成。lstm的結(jié)構(gòu)中每個時刻的隱層包含了多個memoryblocks(一般采用一個block),每個block包含了多個memorycell(即對歷史信息進(jìn)行記錄),每個memorycell包含一個cell和三個gate。

lstm能夠按照一個順序處理蛋白質(zhì)序列,蛋白質(zhì)序列長度一般在幾百以上,由此包含其子序列的絕對位置信息。lstm中的關(guān)鍵部件memorycell通過輸入門、遺忘門、輸出門的互相作用能夠達(dá)到根據(jù)當(dāng)前輸入子序列和之前的子序列之間的關(guān)系,來達(dá)到吸收信息,更新狀態(tài),和輸出信息的功能。因此,lstm層的功能為捕捉蛋白質(zhì)子序列間的依賴關(guān)系。

本發(fā)明通過將lstm在每個時間步上的輸出與隨時間分布的全連接網(wǎng)絡(luò)相連,來更好的捕捉蛋白質(zhì)子序列間的依賴關(guān)系。并且,lstm在每個時間步上的輸出可以看作為當(dāng)前輸入子序列的特征,包含了其上下文依賴關(guān)系。

圖1是用單向lstm作為lstm層的網(wǎng)絡(luò)結(jié)構(gòu)圖。單向lstm將蛋白質(zhì)序列從左到右進(jìn)行處理。在某個時間步上的輸出,包含了當(dāng)前輸入子序列和在其左邊的子序列間的依賴關(guān)系。雖然它能更好的捕捉蛋白質(zhì)間的依賴關(guān)系,但對于某個時間步上的子序列來說,它的輸出只能包含它和它左邊的子序列間的依賴關(guān)系,忽略了“未來”信息。

圖2是用雙向lstm作為lstm層的網(wǎng)絡(luò)結(jié)構(gòu)圖??偟膩碚f,雙向lstm由一個前向lstm和一個后向lstm組成,它們分別從蛋白質(zhì)序列的前段和后端開始處理。對于同一個輸入蛋白質(zhì)子序列,前向lstm的輸出和后向lstm的輸出將會被連接成一個向量。所以,對于一個子序列來說,前向lstm能夠捕捉它與在它左邊的子序列之間的依賴關(guān)系,后向lstm能夠捕捉它與在它右邊的子序列之間的依賴關(guān)系。因此,由這兩個輸出連接起來的向量能更好捕捉當(dāng)前子序列的上下文依賴關(guān)系,從而能夠更好的表示當(dāng)前子序列。

然后,在lstm層后加入一個隨時間分布的全連接網(wǎng)絡(luò)層。隨時間分布指的是該全連接網(wǎng)絡(luò)與lstm層的memoryblock同時隨時間展開。在同一個memoryblock中的memorycell能夠抽取不同程度的子序列間的依賴關(guān)系。所以,加入一個隨時間分布的全連接網(wǎng)絡(luò)層來給不同memorycell的輸出以不同的權(quán)重,從而更好的匯總依賴關(guān)系信息。

輸出層實際上是一個一層的全連接網(wǎng)絡(luò),它的激活函數(shù)是sigmoid,輸入為隨時間分布的全連接網(wǎng)絡(luò)在每個時間步上的輸出連接而成的向量。最終,在輸出層產(chǎn)生一個預(yù)測輸入蛋白質(zhì)屬于某個超家族的概率。

相比現(xiàn)有技術(shù),本發(fā)明提出了一個四層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于蛋白質(zhì)遠(yuǎn)同源性檢測方案,它由輸入層、lstm層、隨時間分布的全連接層和輸出層組成。與傳統(tǒng)用lstm做單分類的方式不同,本發(fā)明利用了lstm在每個時間步上的輸出作為當(dāng)前輸入蛋白質(zhì)子序列的特征,包含了其上下文依賴關(guān)系。然后,使用一個隨時間分布的全連接網(wǎng)絡(luò),來給lstm中同一個memoryblock中不同memorycell的輸出以不同的權(quán)重,從而達(dá)到匯總子序列間依賴關(guān)系的目的。

在lstm層,本發(fā)明采用了兩種結(jié)構(gòu),一種使用單向lstm,一種使用雙向lstm。使用雙向lstm更適合該網(wǎng)絡(luò)結(jié)構(gòu),由此取得了更好的性能,適用于對預(yù)測精度要求較高的場景。但是由于單向lstm訓(xùn)練模型所需時間更少,所以它適用于對效率要求較高,對精度要求較低的情況。

此外,本發(fā)明還提出一種預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系的方法,包括以下步驟:

s1,通過輸入層獲取輸入的原始的蛋白質(zhì)序列,將原始的蛋白質(zhì)序列轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)能夠處理的輸入矩陣;

s2,通過lstm層捕捉蛋白質(zhì)序列中子序列間的依賴關(guān)系,在每個時間步上輸出當(dāng)前輸入子序列的特征,所述當(dāng)前輸入子序列的特征包含其上下文依賴關(guān)系;

s3,通過隨時間分布的全連接層對所述lstm層中的不同memorycell的輸出以不同的權(quán)重,匯總依賴關(guān)系信息;

s4,通過輸出層根據(jù)所述隨時間分布的全連接層在每個時間步上的輸出連接而成的向量,預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系。

其中,所述lstm層為單向lstm層時,所述通過lstm層捕捉蛋白質(zhì)序列中子序列間的依賴關(guān)系,在每個時間步上輸出當(dāng)前輸入子序列的特征的步驟包括:將蛋白質(zhì)序列從左到右進(jìn)行處理,在某個時間步上的輸出,包含了當(dāng)前輸入子序列和在其左邊的子序列間的依賴關(guān)系。

所述lstm層為雙向lstm層時,所述雙向lstm層由一個前向lstm層和一個后向lstm層組成;所述通過lstm層捕捉蛋白質(zhì)序列中子序列間的依賴關(guān)系,在每個時間步上輸出當(dāng)前輸入子序列的特征的步驟包括:

前向lstm層和后向lstm層分別從蛋白質(zhì)序列的前端和后端開始處理,其中,對于同一個輸入蛋白質(zhì)子序列,前向lstm層的輸出和后向lstm層的輸出被連接成一個向量,通過前向lstm層捕捉該輸入蛋白質(zhì)子序列與在它左邊的子序列之間的依賴關(guān)系,通過后向lstm層捕捉該輸入蛋白質(zhì)子序列與在它右邊的子序列之間的依賴關(guān)系。

其中,輸入層的作用為將原始的蛋白質(zhì)序列轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)能夠處理的輸入矩陣。

lstm是一種循環(huán)神經(jīng)網(wǎng)絡(luò),它由memoryblock隨時間展開而成。lstm的結(jié)構(gòu)中每個時刻的隱層包含了多個memoryblocks(一般采用一個block),每個block包含了多個memorycell(即對歷史信息進(jìn)行記錄),每個memorycell包含一個cell和三個gate。

lstm能夠按照一個順序處理蛋白質(zhì)序列,蛋白質(zhì)序列長度一般在幾百以上,由此包含其子序列的絕對位置信息。lstm中的關(guān)鍵部件memorycell通過輸入門、遺忘門、輸出門的互相作用能夠達(dá)到根據(jù)當(dāng)前輸入子序列和之前的子序列之間的關(guān)系,來達(dá)到吸收信息,更新狀態(tài),和輸出信息的功能。因此,lstm層的功能為捕捉蛋白質(zhì)子序列間的依賴關(guān)系。

本發(fā)明通過將lstm在每個時間步上的輸出與隨時間分布的全連接網(wǎng)絡(luò)相連,來更好的捕捉蛋白質(zhì)子序列間的依賴關(guān)系。并且,lstm在每個時間步上的輸出可以看作為當(dāng)前輸入子序列的特征,包含了其上下文依賴關(guān)系。

在lstm層后加入一個隨時間分布的全連接網(wǎng)絡(luò)層。隨時間分布指的是該全連接網(wǎng)絡(luò)與lstm層的memoryblock同時隨時間展開。在同一個memoryblock中的memorycell能夠抽取不同程度的子序列間的依賴關(guān)系。所以,加入一個隨時間分布的全連接網(wǎng)絡(luò)層來給不同memorycell的輸出以不同的權(quán)重,從而更好的匯總依賴關(guān)系信息。

輸出層實際上是一個一層的全連接網(wǎng)絡(luò),它的激活函數(shù)是sigmoid,輸入為隨時間分布的全連接網(wǎng)絡(luò)在每個時間步上的輸出連接而成的向量。最終,在輸出層產(chǎn)生一個預(yù)測輸入蛋白質(zhì)屬于某個超家族的概率。

相比現(xiàn)有技術(shù),本發(fā)明設(shè)計了一種預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及方法,基于深度學(xué)習(xí)技術(shù),提出一個四層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來預(yù)測蛋白質(zhì)序列的遠(yuǎn)同源性關(guān)系,該發(fā)明能自動從原始蛋白質(zhì)序列中發(fā)掘其特征,并偵測蛋白質(zhì)子序列間的依賴關(guān)系,匯總依賴信息,從而分類。因此,它無需人工構(gòu)建特征和生成序列譜,節(jié)省了大量時間,并提高了預(yù)測的準(zhǔn)確性。

以上所述僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或流程變換,或直接或間接運用在其它相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
横山县| 腾冲县| 双鸭山市| 息烽县| 万荣县| 长乐市| 大方县| 衡东县| 商丘市| 株洲县| 凌云县| 怀来县| 中超| 循化| 枝江市| 全南县| 呼伦贝尔市| 襄樊市| 民丰县| 岗巴县| 屏东市| 綦江县| 宁都县| 东至县| 晋江市| 江川县| 疏勒县| 佛学| 葫芦岛市| 乌兰察布市| 东乡县| 鸡泽县| 亚东县| 通榆县| 博客| 桐庐县| 大丰市| 周至县| 靖西县| 浪卡子县| 册亨县|