欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

在目標(biāo)基因組序列中產(chǎn)生新型序列的裝置和方法

文檔序號(hào):414439閱讀:217來(lái)源:國(guó)知局
專利名稱:在目標(biāo)基因組序列中產(chǎn)生新型序列的裝置和方法
技術(shù)領(lǐng)域
本發(fā)明涉及在目標(biāo)基因組序列中產(chǎn)生新型序列的裝置和方法,更具體地講,涉及這樣一種在目標(biāo)基因組序列中產(chǎn)生新型序列的裝置和方法,其用于在下一代測(cè)序(NGS)技術(shù)的基因組重測(cè)序過(guò)程中通過(guò)使用沒(méi)有與參考序列比對(duì)上的輸入短片段產(chǎn)生在參考序列中不存在的新型序列。
背景技術(shù)
NGS技術(shù)在對(duì)目標(biāo)基因組測(cè)序時(shí)產(chǎn)生大量的短片段(其為短的片段)。將產(chǎn)生的短片段與參考序列比對(duì),并用比對(duì)上短片段的共有序列重構(gòu)目標(biāo)基因組的堿基序列,該工藝稱作重測(cè)序。因此,基于參考序列制備通過(guò)重測(cè)序產(chǎn)生的個(gè)別的基因組序列。因此,目前,NGS數(shù)據(jù)同與參考序列比對(duì)上的短片段的共有序列一起構(gòu)成目標(biāo)基因組序列。然而,由于重測(cè)序的方法的限制,在參考序列中不存在或與參考序列不同的個(gè)別的基因組序列中,在相應(yīng)的序列中產(chǎn)生的短片段可能沒(méi)有與參考序列比對(duì)上,因此,個(gè)別的遺傳特征可能不會(huì)充分地反映在根據(jù)重測(cè)序的結(jié)果重構(gòu)的個(gè)別的基因組序列中。因此,為了獲得與參考序列不同的個(gè)別的遺傳特征的信息,雖然需要對(duì)在重測(cè)序過(guò)程中未比對(duì)上的短片段進(jìn)行另外的分析,但通常將該短片段從分析中排除。然而,已知的是,在個(gè)別的基因組中個(gè)別地示出的變異可以解釋與表型變異和疾病易感性相關(guān)的個(gè)別的遺傳特征,因此,找到該變異非常重要。然而,僅通過(guò)使用傳統(tǒng)的重測(cè)序方法難以產(chǎn)生具有以下特征的序列:與在參考序列中不存在并且獨(dú)特地插入到個(gè)別的基因組中的部分對(duì)應(yīng);或者,與在參考序列中存在并且因諸如變異的因素而在個(gè)別的基因組中表現(xiàn)不同的部分對(duì)應(yīng)。此外,僅通過(guò)使用傳統(tǒng)重測(cè)序方法不能解決沒(méi)有與參考序列比對(duì)上的短片段的個(gè)別的基因組的信息丟失的問(wèn)題。

發(fā)明內(nèi)容
本發(fā)明提供了在目標(biāo)基因組序列中產(chǎn)生新型序列的裝置和方法,其用于在下一代測(cè)序(在下文中,稱作NGS)技術(shù)的基因組重測(cè)序過(guò)程中通過(guò)使用沒(méi)有與參考序列比對(duì)上的輸入短片段產(chǎn)生在參考序列中不存在的新型序列。根據(jù)本發(fā)明的一方面,提供了一種新型序列產(chǎn)生裝置,包括:短片段對(duì)獲得單元,獲得分別包括至少一個(gè)未比對(duì)上短片段的短片段對(duì),所述至少一個(gè)未比對(duì)上短片段根據(jù)重測(cè)序的結(jié)果而沒(méi)有與參考序列比對(duì) 上,重測(cè)序用于將從基因組序列測(cè)序儀接收的輸入短片段與參考序列進(jìn)行比對(duì);重疊群產(chǎn)生單元,產(chǎn)生通過(guò)將所獲得的短片段對(duì)的未比對(duì)上短片段進(jìn)行連接而組裝的重疊群;新型序列產(chǎn)生單元,產(chǎn)生包括來(lái)自產(chǎn)生的重疊群之中的至少一個(gè)重疊群的新型序列;以及位置預(yù)測(cè)單元,預(yù)測(cè)產(chǎn)生的新型序列在參考序列上的位置。短片段對(duì)可以包括比對(duì)上-未比對(duì)上短片段對(duì)和未比對(duì)上-未比對(duì)上短片段對(duì),比對(duì)上-未比對(duì)上短片段對(duì)分別由與參考序列比對(duì)上的比對(duì)上短片段中的一個(gè)與未比對(duì)上短片段中的一個(gè)的對(duì)組成,未比對(duì)上-未比對(duì)上短片段分別由未比對(duì)上短片段的對(duì)組成。重疊群可以包括一個(gè)或多個(gè)第一重疊群和一個(gè)或多個(gè)第二重疊群,通過(guò)將比對(duì)上-未比對(duì)上短片段對(duì)的未比對(duì)上短片段連接來(lái)組裝所述一個(gè)或多個(gè)第一重疊群,通過(guò)將未比對(duì)上-未比對(duì)上短片段對(duì)的未比對(duì)上短片段連接來(lái)組裝所述一個(gè)或多個(gè)第二重疊群。新型序列可以包括第一新型序列和第二新型序列,通過(guò)將所述一個(gè)或多個(gè)第一重疊群之中的比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段的方向性相同的第一重疊群與第二重疊群連接獲得第一新型序列,第二新型序列基于比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段的方向性不同的第一重疊群。新型序列產(chǎn)生單元可以基于與產(chǎn)生的重疊群對(duì)應(yīng)的比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段的比對(duì)質(zhì)量、構(gòu)成產(chǎn)生的重疊群的短片段的平均堿基質(zhì)量以及產(chǎn)生的重疊群的長(zhǎng)度來(lái)篩選產(chǎn)生的重疊群。位置預(yù)測(cè)單元可以基于比對(duì)上短片段在參考序列上的位置預(yù)測(cè)新型序列在參考序列上的位置,比對(duì)上短片段來(lái)自用于產(chǎn)生新型序列中包括的重疊群的短片段對(duì)的短片段之中,比對(duì)上短片段與參考序列比對(duì)上。新型序列產(chǎn)生裝置還可以包括類型預(yù)測(cè)單元,類型預(yù)測(cè)單元基于與新型序列在參考序列上的預(yù)測(cè)的位置和由所述預(yù)測(cè)的位置指示的區(qū)域比對(duì)上的短片段的覆蓋深度來(lái)預(yù)測(cè)新型序列的類型,新型序列的類型包括變異新型序列和插入新型序列中的至少一個(gè),變異新型序列存在于參考序列上但表現(xiàn)出與`通過(guò)重測(cè)序重構(gòu)的目標(biāo)基因組序列中的參考序列不同,插入新型序列從參考序列單獨(dú)地插入。新型序列產(chǎn)生裝置還可以包括新型序列輸出單元,新型序列輸出單元用于輸出關(guān)于新型序列的預(yù)測(cè)的位置和預(yù)測(cè)的類型的信息。根據(jù)本發(fā)明的另一方面,提供了一種產(chǎn)生新型序列的方法,該方法包括:執(zhí)行重測(cè)序,重測(cè)序?qū)⑼ㄟ^(guò)基因組序列測(cè)序獲得的輸入短片段與參考序列比對(duì);獲得分別包括根據(jù)重測(cè)序的結(jié)果沒(méi)有與參考序列比對(duì)上的至少一個(gè)未比對(duì)上短片段的短片段對(duì);產(chǎn)生通過(guò)將獲得的短片段對(duì)的未比對(duì)上短片段進(jìn)行連接而組裝的重疊群;產(chǎn)生包括來(lái)自產(chǎn)生的重疊群之中的至少一個(gè)重疊群的新型序列;以及預(yù)測(cè)產(chǎn)生的新型序列在參考序列上的位置。獲得短片段對(duì)可以包括:獲得比對(duì)上-未比對(duì)上短片段對(duì),比對(duì)上-未比對(duì)上短片段對(duì)分別由根據(jù)重測(cè)序的結(jié)果的與參考序列比對(duì)上的比對(duì)上短片段中的一個(gè)和未比對(duì)上短片段中的一個(gè)組成;以及獲得未比對(duì)上-未比對(duì)上短片段對(duì),未比對(duì)上-未比對(duì)上短片段對(duì)分別由根據(jù)重測(cè)序的結(jié)果的成對(duì)的未比對(duì)上短片段組成。產(chǎn)生重疊群可以包括:產(chǎn)生通過(guò)將比對(duì)上-未比對(duì)上短片段對(duì)的未比對(duì)上短片段進(jìn)行連接而組裝的一個(gè)或多個(gè)第一重疊群;以及產(chǎn)生通過(guò)將未比對(duì)上-未比對(duì)上短片段對(duì)的未比對(duì)上短片段進(jìn)行連接而組裝的一個(gè)或多個(gè)第二重疊群。產(chǎn)生新型序列可以包括:基于與第一重疊群對(duì)應(yīng)的比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段在參考序列上的比對(duì)位置和方向性來(lái)確定所述一個(gè)或多個(gè)第一重疊群是否有效;通過(guò)將來(lái)自所述一個(gè)或多個(gè)第一重疊群之中的比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段的方向性相同的第一重疊群與第二重疊群連接來(lái)產(chǎn)生第一新型序列;以及基于比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段的方向性不同的第一重疊群來(lái)產(chǎn)生第二新型序列。預(yù)測(cè)產(chǎn)生的新型序列的位置可以包括:基于來(lái)自用于產(chǎn)生新型序列中包括的重疊群的短片段對(duì)的短片段之中的與參考序列比對(duì)上的比對(duì)上短片段在參考序列上的位置,預(yù)測(cè)新型序列在參考序列上的位置。該方法還可以包括基于與新型序列在參考序列上的預(yù)測(cè)的位置和由所述預(yù)測(cè)的位置指示的區(qū)域比對(duì)上的短片段的覆蓋深度來(lái)預(yù)測(cè)新型序列的類型,其中,新型序列的類型可包括變異新型序列和插入新型序列中的至少一個(gè),變異新型序列存在于參考序列上但表現(xiàn)出與通過(guò)重測(cè)序重構(gòu)的目標(biāo)基因組序列中的參考序列不同,插入新型序列從參考序列單獨(dú)地插入。


通過(guò)參照附圖詳細(xì)地描述本發(fā)明的示例性實(shí)施例,本發(fā)明以上和其他特征和優(yōu)點(diǎn)將變得更明顯,在附圖中:圖1是示出根據(jù)本發(fā)明實(shí)施例的基因組序列分析系統(tǒng)的框圖;圖2是根據(jù)本發(fā)明實(shí)施例的新型序列產(chǎn)生裝置的框圖;圖3A和圖3B是根據(jù)本發(fā)明實(shí)施例的用于描述短片段對(duì)和重疊群的構(gòu)思的圖示;圖4是示出根據(jù)本發(fā)明實(shí)施例的產(chǎn)生新型序列和預(yù)測(cè)關(guān)于新型序列的信息的方法的流程圖;圖5A是示出根據(jù)本發(fā)明實(shí)施例的基于重疊群來(lái)產(chǎn)生新型序列的工藝的流程圖;圖5B是根據(jù)本發(fā)明實(shí)施例的用于描述在新型序列的產(chǎn)生過(guò)程中確定重疊群是否有效的示例的圖示;圖6A和圖6B是用于描述預(yù)測(cè)根據(jù)本發(fā)明實(shí)施例產(chǎn)生的新型序列的信息的工藝的圖示;圖7是示出根據(jù)本發(fā)明實(shí)施例的通過(guò)確定第一重疊群是否有效來(lái)對(duì)重疊群的類型進(jìn)行分類的工藝的圖示; 圖8是示出根據(jù)本發(fā)明實(shí)施例的通過(guò)將來(lái)自第一重疊群之中的比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段的方向性相同的第一重疊群與第二重疊群連接來(lái)產(chǎn)生新型序列的工藝的偽代碼。
具體實(shí)施例方式前面僅僅示出了本發(fā)明的原理。因此,將理解的是,雖然這里未明確地描述或示出,但本領(lǐng)域普通技術(shù)人員將能夠設(shè)計(jì)出體現(xiàn)本發(fā)明的原理并被包括在其精神和范圍內(nèi)的各種布置。此外,在此敘述的有條件的語(yǔ)言和全部示例的主要的、明確的意圖僅在于教導(dǎo)的目的并幫助讀者理解本發(fā)明的原理和發(fā)明人對(duì)現(xiàn)有技術(shù)進(jìn)行改進(jìn)所貢獻(xiàn)的構(gòu)思,并且將被解釋為不限于這些具體敘述的 示例和條件。此外,在此敘述本發(fā)明的原理、方面和實(shí)施例的所有陳述以及本發(fā)明的具體示例意圖包括本發(fā)明的結(jié)構(gòu)和功能的等同物。此外,這樣的等同物都意圖包括當(dāng)前已知的等同物和未來(lái)開發(fā)的等同物(即,執(zhí)行相同功能所開發(fā)的任何元件,而與結(jié)構(gòu)無(wú)關(guān))。在附圖中示出的各種裝置(包括表示為處理器或表示為與處理器相似構(gòu)思的功能模塊)的功能不僅可以設(shè)置有特定硬件,還可以設(shè)置有可以執(zhí)行相關(guān)軟件的通用硬件。當(dāng)通過(guò)處理器提供這些功能時(shí),可以通過(guò)單個(gè)特定處理器、單個(gè)共享處理器或多個(gè)處理器(其中,多個(gè)處理器之間的共享是可能的)提供這些功能。此外,諸如處理器、控制器等的術(shù)語(yǔ)的使用不應(yīng)該被解釋為局限于能夠執(zhí)行軟件的硬件,而應(yīng)該被解釋為間接包括用于存儲(chǔ)軟件的數(shù)字信號(hào)處理器(DSP)硬件、只讀存儲(chǔ)器(ROM)、隨機(jī)存取存儲(chǔ)器(RAM)和非易失性存儲(chǔ)器。可以包括其他公知的傳統(tǒng)硬件裝置。在下文中,將參照附圖解釋本發(fā)明的示例性實(shí)施例來(lái)詳細(xì)地描述本發(fā)明。在本發(fā)明的以下描述中,將僅解釋對(duì)理解本發(fā)明的操作必需的必要部件,當(dāng)認(rèn)為其他部件不必要地使本發(fā)明的主題模糊時(shí),將不·解釋其他部件。除非另外表明,否則詞語(yǔ)“包括”或變型被理解為表示“包括,但不限于”的意思,
從而未明確提到的其他元件也可以包括在內(nèi)。當(dāng)諸如“......中的至少一種(個(gè))(者)”
的表述放在一系列元件后面時(shí),修飾整個(gè)系列的元件,而不是修飾所述系列中的單個(gè)元件?,F(xiàn)在將參照附圖更充分地描述本發(fā)明,在附圖中示出了本發(fā)明的示例性實(shí)施例。圖1是示出根據(jù)本發(fā)明實(shí)施例的基因組序列分析系統(tǒng)100的框圖。參照?qǐng)D1,基因組序列分析系統(tǒng)100可以包括基因組序列測(cè)序儀110、基因組序列重測(cè)儀120、目標(biāo)基因組序列重構(gòu)裝置130和新型序列產(chǎn)生裝置140。基因組序列分析系統(tǒng)100可以從基因組序列數(shù)據(jù)庫(kù)150中獲得關(guān)于目標(biāo)基因組序列或參考序列的信息,或者可以產(chǎn)生關(guān)于新型序列的信息,并且將該信息儲(chǔ)存在基因組序列數(shù)據(jù)庫(kù)150中。基因組序列測(cè)序儀110通過(guò)測(cè)序產(chǎn)生目標(biāo)基因組的堿基序列數(shù)據(jù)。雖然目標(biāo)生命不限于人類,但用于分析基因組的參考序列應(yīng)該存在。在當(dāng)前實(shí)施例中,堿基序列數(shù)據(jù)是指使用DNA測(cè)序儀產(chǎn)生的關(guān)于構(gòu)成脫氧核糖核酸(DNA)的四種堿基A、C、G和T的序列的數(shù)據(jù)以及與該序列相關(guān)的數(shù)據(jù)。這里,例如,相關(guān)數(shù)據(jù)可以是堿基質(zhì)量評(píng)分(base quality score)和短片段深度(read depth)?;蚪M序列重測(cè)儀120從來(lái)自基因組序列測(cè)序儀110的堿基序列數(shù)據(jù)接收構(gòu)成目標(biāo)基因組的堿基序列的輸入短片段,并執(zhí)行用于將輸入短片段與參考序列比對(duì)的重測(cè)序。在當(dāng)前實(shí)施例中,輸入短片段是指在基因組序列測(cè)序儀110中通過(guò)DNA測(cè)序產(chǎn)生的單個(gè)連接堿基短片段。由于在DNA測(cè)序過(guò)程中執(zhí)行DNA的分割和擴(kuò)增,所以重疊部分可以存在于根據(jù)DNA測(cè)序的結(jié)果而產(chǎn)生的短片段中。基于在基因組序列重測(cè)儀120中通過(guò)重測(cè)序而與參考序列比對(duì)上的比對(duì)上短片段,目標(biāo)基因組序列重構(gòu)裝置130重構(gòu)目標(biāo)基因組序列?;谠诨蚪M序列重測(cè)儀120中通過(guò)重測(cè)序而與參考序列未比對(duì)上的未比對(duì)上短片段,新型序列產(chǎn)生裝置140產(chǎn)生因插入或變異而與參考序列不同地形成的新型序列。因此,基因組序列分析系統(tǒng)100通過(guò)將關(guān)于產(chǎn)生的新型序列的信息和關(guān)于重構(gòu)的目標(biāo)基因組序列的信息結(jié)合而可以提供關(guān)于具有更完整結(jié)構(gòu)的目標(biāo)基因組序列的信息。這樣,為了提供關(guān)于具有更完整結(jié)構(gòu)的目標(biāo)基因組序列的信息,當(dāng)前實(shí)施例提供了不僅使用通過(guò)重測(cè)序而與參考序列比對(duì)上的比對(duì)上短片段還使用未比對(duì)上短片段來(lái)分析基因組序列的裝置和方法。
圖2是根據(jù)本發(fā)明實(shí)施例的新型序列產(chǎn)生裝置200的框圖。參照?qǐng)D2,新型序列產(chǎn)生裝置200可以包括短片段對(duì)獲得單元210、重疊群產(chǎn)生單元220、新型序列產(chǎn)生單元230、位置預(yù)測(cè)單元240、類型預(yù)測(cè)單元250和新型序列輸出單元260。短片段對(duì)獲得單元210獲得分別包括至少一個(gè)未比對(duì)上短片段的短片段對(duì),未比對(duì)上短片段根據(jù)將從基因組序列測(cè)序儀110接收的輸入短片段與參考序列進(jìn)行比對(duì)的重測(cè)序的結(jié)果而沒(méi)有與參考序列比對(duì)上。對(duì)于短片段對(duì)獲得單元210,使用由配對(duì)文庫(kù)(mate-pair library)或雙末端文庫(kù)(paired-end library)提供的成對(duì)短片段信息。短片段對(duì)可以分為由與參考序列比對(duì)上的比對(duì)上短片段對(duì)組成的比對(duì)上-比對(duì)上短片段對(duì)、由比對(duì)上短片段和未比對(duì)上序列組成的比對(duì)上-未比對(duì)上短片段對(duì)以及由未比對(duì)上短片段對(duì)組成的未比對(duì)上-未比對(duì)上短片段對(duì)。然而,從這些當(dāng)中,短片段對(duì)獲得單元210可以獲得包括沒(méi)有與參考序列比對(duì)上的至少一個(gè)未比對(duì)上短片段的短片段對(duì),SP,比對(duì)上-未比對(duì)上短片段對(duì)和未比對(duì)上-未比對(duì)上短片段對(duì)。重疊群產(chǎn)生單元 220通過(guò)將由短片段對(duì)獲得單元210獲得的短片段對(duì)的未比對(duì)上短片段進(jìn)行連接來(lái)產(chǎn)生組裝的重疊群。例如,產(chǎn)生重疊群的代表性方法可以是從頭組裝算法(de novoassemblyalgorithm)。通常,廣泛地使用諸如 Velvet (Zebrano 和 Birney, Velvet:algorithmsfor de novo short read assembly using de Bruijn graphs, Genomeresearch,18:821_829,2008)、ABYSS (Simpson 等人,ABYSS:a parallel assemblerforshort read sequence data, Genome research,19:1117_1123,2009)或 SOAPdenovo (Li等人,De novo assembly of human genomes with massively parallel shortreadsequencing, Genome research, 20:265-272, 2010)的從頭組裝算法,但本發(fā)明不限制將未比對(duì)上短片段連接的算法。多數(shù)從頭組裝算法根據(jù)將被輸入的數(shù)據(jù)的大小而需要大容量的存儲(chǔ)器。因此,為了將在產(chǎn)生重疊群的工藝過(guò)程中消耗的存儲(chǔ)資源最小化,重疊群產(chǎn)生單元220可以在短片段對(duì)(包括與相同染色體序列比對(duì)上的比對(duì)上短片段)的未比對(duì)上短片段中根據(jù)染色體執(zhí)行從頭組裝。重疊群產(chǎn)生單元220產(chǎn)生的重疊群可以根據(jù)形成重疊群的每個(gè)組裝的基本部分的短片段對(duì)的類型進(jìn)行分類,即,根據(jù)重疊群對(duì)應(yīng)于比對(duì)上-未比對(duì)上短片段對(duì)或未比對(duì)上-未比對(duì)上短片段對(duì)中的哪個(gè)而進(jìn)行分類。在當(dāng)前實(shí)施例中,通過(guò)將比對(duì)上-未比對(duì)上短片段對(duì)中的未比對(duì)上短片段連接而組裝的重疊群稱作“第一重疊群”,通過(guò)將未比對(duì)上-未比對(duì)上短片段對(duì)中的未比對(duì)上短片段連接而組裝的重疊群稱作“第二重疊群”。新型序列產(chǎn)生單元230產(chǎn)生包括至少一個(gè)有效重疊群的新型序列,所述至少一個(gè)有效重疊群來(lái)自重疊群產(chǎn)生單元220產(chǎn)生的重疊群之中。新型序列產(chǎn)生單元230可以基于相應(yīng)的比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段的比對(duì)質(zhì)量、構(gòu)成重疊群的短片段的平均堿基質(zhì)量以及重疊群的長(zhǎng)度,篩選重疊群產(chǎn)生單元220產(chǎn)生的重疊群中的無(wú)效重疊群。
例如,在具有比對(duì)質(zhì)量或堿基質(zhì)量低的短片段的重疊群中,由于即使短片段與參考序列比對(duì)上也難以信賴該重疊群,所以可以將該重疊群認(rèn)為是無(wú)效重疊群并且可以篩選該重疊群以獲得更可靠的結(jié)果。在相應(yīng)的比對(duì)上-未比對(duì)上短片段對(duì)中的比對(duì)上短片段具有相同的方向性的情況下以及在相應(yīng)的比對(duì)上-未比對(duì)上短片段對(duì)中的比對(duì)上短片段具有不同的方向性的情況下,新型序列產(chǎn)生單元230可以對(duì)重疊群產(chǎn)生單元220產(chǎn)生的第一重疊群進(jìn)行不同的處理。例如,相應(yīng)的比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段的方向性相同的第一重疊群可以連接到第二重疊群以產(chǎn)生新型序列。此外,可以僅基于相應(yīng)的比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段的方向性不同的第一重疊群來(lái)產(chǎn)生新型序列。位置預(yù)測(cè)單元240預(yù)測(cè)由新型序列產(chǎn)生單元230產(chǎn)生的新型序列在參考序列上的位置。位置預(yù)測(cè)單元240檢索與參考序列比對(duì)上的比對(duì)上短片段是否存在于用于產(chǎn)生新型序列中包括的重疊群的短片段對(duì)的短片段中。如果與參考序列比對(duì)上的比對(duì)上短片段存在,則位置預(yù)測(cè)單元240可以基于比對(duì)上短片段在參考序列上的位置來(lái)預(yù)測(cè)頭(heading)新型序列在參考序列中的位置。類型預(yù)測(cè)單元250可以基于位置預(yù)測(cè)單元240預(yù)測(cè)的新型序列在參考序列上的位置來(lái)預(yù)測(cè)新型序列的類型。在當(dāng)前實(shí)施例中,新型序列的類型可以包括變異新型序列和插入新型序列,變異新型序列存在于參考序列上但表現(xiàn)出與通過(guò)重測(cè)序重構(gòu)的目標(biāo)基因組序列中的參考序列不同,插入新型序列從參考序列單獨(dú)地插入。新型序列輸出單 元260輸出關(guān)于位置預(yù)測(cè)單元240預(yù)測(cè)的新型序列的位置和類型預(yù)測(cè)單元250預(yù)測(cè)的類型的信息以及關(guān)于新型序列的信息。新型序列輸出單元260可以將用于管理基因組序列信息和關(guān)于新型序列的信息的數(shù)據(jù)提供至終端,終端通過(guò)顯示裝置提供基因組序列信息。圖3A是根據(jù)本發(fā)明實(shí)施例的用于描述通過(guò)新型序列產(chǎn)生裝置200獲得的短片段對(duì)的構(gòu)思的圖示。參照?qǐng)D3A,在構(gòu)成因插入而產(chǎn)生的新型序列的短片段中,根據(jù)重測(cè)序的結(jié)果,與插入?yún)^(qū)域300對(duì)應(yīng)的短片段沒(méi)有與參考序列比對(duì)上。因此,為了根據(jù)重測(cè)序的結(jié)果產(chǎn)生(重建)具有沒(méi)有與參考序列比對(duì)上的短片段的新型序列,新型序列產(chǎn)生裝置從輸入到基因組序列分析系統(tǒng)100中的基因組序列的重測(cè)序的結(jié)果之中獲得:(1)短片段對(duì)(在下文中,稱作比對(duì)上-未比對(duì)上短片段對(duì)或Mappedref-Unmappedref短片段對(duì))301,其中,一個(gè)短片段(在下文中,稱作比對(duì)上短片段或MappecTf短片段)與參考序列比對(duì)上,但另一個(gè)短片段(在下文中,稱作未比對(duì)上短片段或Unmappecfef短片段)與參考序列未比對(duì)上;(2)短片段對(duì)(在下文中,稱作未比對(duì)上-未比對(duì)上短片段對(duì)或Unmappecfef-UnmappecTf短片段對(duì))302,其中,兩個(gè)短片段都沒(méi)有與參考序列比對(duì)上。圖3B是根據(jù)本發(fā)明實(shí)施例的用于描述由新型序列產(chǎn)生裝置200產(chǎn)生的重疊群的構(gòu)思的圖示。
在當(dāng)前實(shí)施例中,當(dāng)新型序列的長(zhǎng)度中等,S卩,新型序列的整個(gè)長(zhǎng)度小于成對(duì)的短片段之間的插入尺寸的兩倍時(shí),可以僅使用通過(guò)將比對(duì)上-未比對(duì)上短片段對(duì)中的未比對(duì)上片段連接而組裝的重疊群305來(lái)產(chǎn)生(重建)新型序列(見(jiàn)類型3)。然而,當(dāng)新型序列的長(zhǎng)度長(zhǎng),即,新型序列的整個(gè)長(zhǎng)度等于或大于短片段對(duì)之間的插入尺寸的兩倍時(shí),可以僅使用通過(guò)將比對(duì)上-未比對(duì)上短片段對(duì)中的未比對(duì)上短片段連接而組裝的重疊群303和304,在與新型序列的兩端對(duì)應(yīng)的基因組序列的外部不產(chǎn)生(重建)新型序列(見(jiàn)類型I和類型2)。因此,在長(zhǎng)度長(zhǎng)的新型基因組序列中,可以僅在重疊群303和304連接到重疊群306(見(jiàn)類型4)時(shí)產(chǎn)生(重建)整個(gè)新型序列,其中,通過(guò)將未比對(duì)上-未比對(duì)上短片段對(duì)中的未比對(duì)上短片段連接來(lái)組裝重疊群306。圖4是示出根據(jù)本發(fā)明實(shí)施例的產(chǎn)生新型序列和預(yù)測(cè)關(guān)于新型序列的信息的方法的流程圖??梢酝ㄟ^(guò)圖2中示出的基因組序列分析系統(tǒng)100和圖2中示出的新型序列產(chǎn)生裝置200來(lái)執(zhí)行產(chǎn)生新型序列的方法。因此,將省略對(duì)圖2中示出的基因組序列分析系統(tǒng)100和圖2中示出的新型序列產(chǎn)生裝置200的重復(fù)描述。參照?qǐng)D4,首先,通過(guò)基因組 序列測(cè)序來(lái)獲得輸入短片段(操作S410)。執(zhí)行用于將在操作S410中獲得的輸入短片段與參考序列比對(duì)上的重測(cè)序(操作S420)。獲得分別包括根據(jù)操作S420中的重測(cè)序的結(jié)果而沒(méi)有與參考序列比對(duì)上的至少一個(gè)未比對(duì)上短片段的短片段對(duì),即,比對(duì)上-未比對(duì)上短片段對(duì)和未比對(duì)上-未比對(duì)上短片段對(duì)(操作S430)。產(chǎn)生通過(guò)將操作S430中獲得的短片段對(duì)之中的比對(duì)上-未比對(duì)上短片段對(duì)的未比對(duì)上短片段連接進(jìn)行連接而組裝的第一重疊群(操作S440),以及產(chǎn)生通過(guò)將操作S430中獲得的短片段對(duì)之中的未比對(duì)上-未比對(duì)上短片段對(duì)的未比對(duì)上短片段進(jìn)行連接而組裝的第二重疊群(操作S450)?;诓僮鱏440中產(chǎn)生的第一重疊群和操作S450中產(chǎn)生的第二重疊群來(lái)產(chǎn)生新型序列(操作S460)。將參照?qǐng)D5A和圖5B描述在操作S460中基于重疊群來(lái)產(chǎn)生新型序列的詳細(xì)示例。預(yù)測(cè)操作S460中產(chǎn)生的新型序列的位置和類型(操作S470)。這里,可以基于比對(duì)上短片段(其來(lái)自用于產(chǎn)生新型序列中包括的重疊群的短片段對(duì)的短片段并與參考序列比對(duì)上)在參考序列上的位置來(lái)預(yù)測(cè)新型序列在參考序列上的位置。在當(dāng)前實(shí)施例中,將參照?qǐng)D6來(lái)描述預(yù)測(cè)新型序列的位置和類型的詳細(xì)示例。圖5A是根據(jù)本發(fā)明實(shí)施例的基于重疊群產(chǎn)生新型序列的工藝的流程圖。圖5B是用于描述根據(jù)本發(fā)明實(shí)施例的在新型序列產(chǎn)生過(guò)程中確定重疊群是否有效的示例的圖示。參照?qǐng)D5A,確定重疊群是第一重疊群還是第二重疊群(操作S501)。根據(jù)操作S501中確定的結(jié)果,當(dāng)重疊群是第一重疊群時(shí)(操作S502),基于比對(duì)上短片段在參考序列上的比對(duì)位置和方向性來(lái)確定第一重疊群是否有效(操作S503),其中,比對(duì)上短片段包括在與第一重疊群對(duì)應(yīng)的比對(duì)上-未比對(duì)上短片段對(duì)中。執(zhí)行操作S503中確定第一重疊群是否有效來(lái)篩選與新型序列無(wú)關(guān)的任意重疊群。由于通過(guò)使用比對(duì)上-未比對(duì)上短片段對(duì)的未比對(duì)上短片段來(lái)產(chǎn)生第一重疊群,所以可以評(píng)價(jià)比對(duì)上短片段在參考序列上的比對(duì)位置和方向性,其中,比對(duì)上短片段與相應(yīng)的未比對(duì)上短片段成對(duì)來(lái)用于篩選。例如,如果比對(duì)上短片段的比對(duì)位置嚴(yán)格地位于預(yù)定距離內(nèi)并且比對(duì)上短片段具有相同的方向性,則可以確定相應(yīng)的重疊群有效,并且根據(jù)比對(duì)上短片段的方向性可以確定重疊群是類型I的重疊群303 (見(jiàn)圖3B)還是類型2的重疊群304 (見(jiàn)圖3B)。此外,雖然比對(duì)上短片段具有不同的方向性,但如果具有相同方向性的比對(duì)上短片段的位置位于預(yù)定距離內(nèi)并且如果具有相同方向性的兩個(gè)短片段的組,即,比對(duì)上短片段的組和未比對(duì)上短片段的組彼此不重疊,則可以確定相應(yīng)的重疊群有效,因此可以確定相應(yīng)的重疊群是類型3的重疊群305 (見(jiàn)圖3B)。這樣,根據(jù)基于比對(duì)上短片段在參考序列上的比對(duì)位置和方向性來(lái)確定重疊群是否有效的結(jié)果,確定無(wú)效重疊群是無(wú)價(jià)值的任意重疊群,因此,在新型序列的產(chǎn)生過(guò)程中將無(wú)效重疊群排除(篩選)(操作S504)。然后,針對(duì)在操作S503中被確定為有效的第一重疊群來(lái)確定比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段是否具有相同的方向性(操作S504和S505)。如果第一重疊群具有相同的方向性,則通過(guò)將第一重疊群和第二重疊群連接來(lái)產(chǎn)生新型序列(操作S506)。如上所述,比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段的方向性相同的第一重疊群可以分為類型I的重疊群303和類型2的重疊群304(見(jiàn)圖3B),類型I的重疊群303和類型2的重疊群304連接到類型4的重疊群306 (即,第二重疊群)(見(jiàn)圖3B)來(lái)產(chǎn)生長(zhǎng)度長(zhǎng)的重疊群(新型序列)。這里,當(dāng)類型I的重疊群303的后綴(suffix)的序列與類型4的重疊群306的前綴(prefix)的序列重疊時(shí),或者當(dāng)類型2的重疊群304的前綴的序列與類型4的重疊群306的后綴的序列重疊時(shí),序列可以相互連接。換句話說(shuō),當(dāng)序列以類型I >類型4 >類型2的順序相互連接時(shí),或者當(dāng)序列以類型I >類型4或類型4 >類型2的順序彼此重疊時(shí),序列可以相互連接來(lái)產(chǎn)生單個(gè)長(zhǎng)的重疊群(新型序列)。從操作S504中被確定為有效的第一重疊群當(dāng)中,基于比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段的方向性不同的第一重疊群來(lái)產(chǎn)生新型序列(操作S507)。如上所述,比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段的方向性不同的有效的第一重疊群可以分為類型3的重疊群305 (見(jiàn)圖3B),類型3的重疊群305可以是長(zhǎng)度中等的重疊群(新型序列)。操作S506或S507中產(chǎn)生的新型序列可以對(duì)應(yīng)于中等大小的新型序列和長(zhǎng)新型序列,或者中等大小的新型序列和長(zhǎng)新型序列中的一個(gè)。此外,通過(guò)提供關(guān)于新型序列的信息,可以提供具有更完整結(jié)構(gòu)的目標(biāo)基因組序列。圖6A和圖6B是描述預(yù)測(cè)根據(jù)本發(fā)明實(shí)施例產(chǎn)生的新型序列的信息的工藝的圖
/Jn ο在當(dāng)前實(shí)施例中,可以基于比對(duì)上短片段在參考序列上的位置來(lái)預(yù)測(cè)關(guān)于新型序列的信息(即,新型序列在參考序列上的位置),其中,比對(duì)上短片段來(lái)自用于產(chǎn)生新型序列中包括的重疊群的短片段對(duì)的短片段中。參照?qǐng)D6A,通過(guò)將與長(zhǎng) 度中等的新型序列對(duì)應(yīng)的類型3的重疊群與類型1、2和4的重疊群連接而形成的重疊群可以預(yù)測(cè)新型序列在參考序列上的開始位置601和結(jié)束位置 602。
然而,與通過(guò)將類型I的重疊群和類型4的重疊群連接形成的重疊群對(duì)應(yīng)的新型序列可以僅預(yù)測(cè)開始位置601,與通過(guò)將類型4的重疊群和類型2的重疊群連接形成的重疊群對(duì)應(yīng)的新型序列可以僅預(yù)測(cè)結(jié)束位置602。這里,新型序列在參考序列上的預(yù)測(cè)的位置可以意味著插入事件發(fā)生在由參考序列的相應(yīng)位置指不的區(qū)域中,或者意味著聞度趨異的序列(highly divergentsequence)存在于由參考序列的相應(yīng)位置指示的區(qū)域中。此外,由于包括新型序列的區(qū)域具有的比對(duì)上短片段的數(shù)量通常少于周圍區(qū)域的比對(duì)上短片段的數(shù)量,所以相應(yīng)區(qū)域的覆蓋的深度(cbpth of coverage)遠(yuǎn)小于覆蓋的平均深度,由于該事實(shí),所以可以基于與新型序列在參考序列上的預(yù)測(cè)的位置比對(duì)上或與參考序列的相應(yīng)位置指示的區(qū)域比對(duì)上的比對(duì)上短片段的覆蓋深度來(lái)預(yù)測(cè)新型序列的類型。 使用利用覆蓋深度的拷貝數(shù)變異(CNV)算法來(lái)執(zhí)行確定新型序列的類型的方法,下面將進(jìn)行描述。通過(guò)使用CNVnator算法(Abyzov等人,CNVnator:an approach todiscover, geno type, and characterize typical and atypical CNVsfrom family andpopulation genome sequencing, Genome research 21:974-984, 2011)的一部分來(lái)描述當(dāng)前實(shí)施例。然而,這只是以便于描述為目的的示例,本發(fā)明不限于此。將包括在參考序列上的預(yù)定距離內(nèi)的前區(qū)和后區(qū)并且被預(yù)測(cè)為具有新型序列的區(qū)域設(shè)置為目標(biāo)區(qū)域,目標(biāo)區(qū)域分為具有預(yù)定大小的小段(bin)以計(jì)算比對(duì)上短片段的覆蓋深度。如CNVnator算法中所示,可以根據(jù)覆蓋深度和GC含量之間的關(guān)系來(lái)調(diào)整覆蓋深度。此外,目標(biāo)區(qū)域分為示出覆蓋深度的片段,所述覆蓋深度通過(guò)使用劃分算法而具有不同的圖案。根據(jù)當(dāng)前實(shí)施例,由于單個(gè)新型序列存在于目標(biāo)區(qū)域中,所以目標(biāo)區(qū)域可分為新型序列區(qū)域以及前后相鄰區(qū)域。由于與相鄰區(qū)域相比,短片段不會(huì)與新型序列區(qū)域比對(duì)上或不會(huì)容易地與新型序列區(qū)域比對(duì)上,因此,新型序列區(qū)域可以具有比相鄰區(qū)域低的覆蓋深度。如果具有較低覆蓋深度的新型序列區(qū)域具有與預(yù)測(cè)的新型序列的相應(yīng)重疊群的長(zhǎng)度相似或更長(zhǎng)的長(zhǎng)度,則可以確定目標(biāo)區(qū)域的新型序列是高度趨異序列類型(在下文中,稱作趨異新型序列),或者如果新型序列區(qū)域具有比預(yù)測(cè)的新型序列的相應(yīng)重疊群的長(zhǎng)度短的長(zhǎng)度,則可以確定目標(biāo)區(qū)域的新型序列是插入產(chǎn)生型(在下文中,稱作插入新型序列)。例如,參照?qǐng)D6B,在高度趨異序列存在的區(qū)域611中,覆蓋深度低的區(qū)域可以與新型序列的長(zhǎng)度一致地分布。同時(shí),在插入事件發(fā)生的區(qū)域612中,由于相應(yīng)的新型序列在預(yù)測(cè)的區(qū)域中插入到特定的斷裂點(diǎn)(break point)中,所以覆蓋深度低的區(qū)域可以示出為顯著窄的區(qū)域或者可以不各易區(qū)別。圖7是示出根據(jù)本發(fā)明實(shí)施例的通過(guò)確定第一重疊群是否有效來(lái)對(duì)重疊群的類型進(jìn)行分類的工藝的圖示。參照?qǐng)D7,從產(chǎn)生的重疊區(qū)之中,可以根據(jù)比對(duì)上短片段在參考序列上的比對(duì)位置和方向性來(lái)篩選每個(gè)第一重疊群(類型1、2和3),比對(duì)上短片段與用于產(chǎn)生重疊群的未比對(duì)上短片段成對(duì)。在當(dāng)前實(shí)施例中,雖然使用了 SOLiD測(cè)序儀的配對(duì)文庫(kù),但這僅僅是以便于描述為目的的示例,本發(fā)明不限于此。為了篩選重疊群,首先,檢測(cè)用于產(chǎn)生每個(gè)第一重疊群的未比對(duì)上短片段的有效性。如果未比對(duì)上短片段有效,則成對(duì)的比對(duì)上短片段的比對(duì)位置應(yīng)該相鄰于與其他未比對(duì)上短片段成對(duì)的比對(duì)上短片段的位置。另外,確定未比對(duì)上短片段無(wú)效,因此,可以篩選重疊群(操作S701)。此外,成對(duì)的F3或R3比對(duì)上短片段應(yīng)該具有相同的鏈(+或_)。另外,確定短片段為無(wú)效,因此可以篩選重疊群(操作S702)。如果每個(gè)重疊群包括預(yù)定比例或比預(yù)定比例多的無(wú)效未比對(duì)上短片段,則將重疊群確定為無(wú)效,因此可以篩選重疊群。此外,當(dāng)在與篩選重疊群的同時(shí)對(duì)第一重疊群的類型分類時(shí),如果與第一重疊群的有效未比對(duì)上短片段成對(duì)的全部比對(duì)上短片段是F3比對(duì)上短片段,則如果F3比對(duì)上短片段是+鏈時(shí)可以將第一重疊群分類為類型2的重疊群,并且如果F3比對(duì)上短片段是-鏈時(shí)可以將第一重疊群分類為類型I的重疊群。同時(shí),如果與第一重疊群的有效未比對(duì)上短片段成對(duì)的全部比對(duì)上短片段是R3比對(duì)上短片段,則如果R3比對(duì)上短片段是+鏈時(shí)可以將第一重疊群分類為類型I的重疊群,并且如果R3比對(duì)上短片段是-鏈時(shí)可以將第一重疊群分類為類型2的重疊群。此外,即使與第一重疊群的有效未比對(duì)上短片段成對(duì)的比對(duì)上短片段是F3和R3比對(duì)上短片段的混合物,如果F3和R3比對(duì)上短片段是不同類型的鏈,則第一重疊群也可以是類型I或類型2的重疊群。如果與第一重疊群的有效未比對(duì)上短片段成對(duì)的比對(duì)上短片段是F3和R3比對(duì)上短片段的混合物,并且如果F3和R3比對(duì)上短片段是相同類型的鏈,則可以根據(jù)F3短片段和R3短片段的比對(duì)上區(qū)域來(lái)確定比對(duì)上短片段的有效性和類型(操作S703)。如果F3和R3比對(duì)上短片段是+鏈,則R3短片段的比對(duì)上區(qū)域應(yīng)該位于F3短片段的比對(duì)上區(qū)域的前面。相反,如果F3和R3比對(duì)上短片段是-鏈,則F3短片段的比對(duì)上區(qū)域應(yīng)該位于R3短片段的比對(duì)上區(qū)域的前面。如果滿足這些條件,則可以將第一重疊群分類為類型3的重疊群,否則,將第一重疊群確定為無(wú)效重疊群,因此可以篩選第一重疊群。圖8是示出根據(jù)本發(fā)明實(shí)施例的`通過(guò)將來(lái)自第一重疊群之中的比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段的方向性相同的第一重疊群與第二重疊群連接來(lái)產(chǎn)生新型序列的工藝的偽代碼。根據(jù)當(dāng)前實(shí)施例,第二重疊群(類型4的重疊群)可以連接到來(lái)自第一重疊群之中的比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段的方向性相同的第一重疊群(類型I的重疊群和類型2的重疊群),因此重疊群可以延伸。這樣,為了連接重疊群,類型I的重疊群的后綴的序列應(yīng)該與類型4的重疊群的前綴的序列重疊,或者類型I的重疊群的前綴的序列應(yīng)該與類型4的重疊群的后綴的序列重疊。為了獲得關(guān)于重疊群的序列之間的重疊的信息,當(dāng)前實(shí)施例使用計(jì)算兩個(gè)序列之間的最佳局部聯(lián)配的 Smith-Waterman 算法(Smith 和 Waterman, Identification ofcommon molecular subsequences, J.Mol.Biol., 147:195-197,1981)。然而,這僅僅是以便于描述為目的的示例,本發(fā)明不限于此。如當(dāng)前實(shí)施例中所描述的,為了連接重疊群,首先,計(jì)算類型4的重疊群與類型I和2之間的聯(lián)配,并確定該聯(lián)配是否位于類型4的重疊群的序列所存在的區(qū)域中。如果聯(lián)配存在于一個(gè)類型4的重疊群的序列與至少一個(gè)類型I或類型2的重疊群的序列之間,則聯(lián)配分值(alignment score)最大的類型I或類型2的重疊群可以用于類型4的重疊群的連接。
此外,可以將未用于重疊群延伸的類型I或類型2的重疊群以及延伸以提供新型序列在目標(biāo)基因組序列中的更多信息的重疊群實(shí)現(xiàn)為被報(bào)告成屬于新型序列的部分序列。根據(jù)本發(fā)明,產(chǎn)生了目標(biāo)基因組序列的參考序列所未反映的新型序列,并且可以提供新型序列的信息。此外,可以基于新型序列的信息和傳統(tǒng)NGS數(shù)據(jù)對(duì)個(gè)別的遺傳特征進(jìn)行深入研究。此外,通過(guò)將由重測(cè)序重構(gòu)的目標(biāo)基因組序列的信息與根據(jù)本發(fā)明產(chǎn)生的新型序列的信息結(jié)合,可以提供具有更完整結(jié)構(gòu)的目標(biāo)基因組序列。最后,可以獲得個(gè)別的遺傳變異的更詳細(xì)的信息,這可以幫助開展對(duì)定制的基因組序列的開發(fā)。本發(fā)明可以實(shí)施為在計(jì)算機(jī)可讀記錄介質(zhì)中的計(jì)算機(jī)可讀代碼。計(jì)算機(jī)可讀記錄介質(zhì)可以是能夠存儲(chǔ)計(jì)算機(jī)系統(tǒng)讀取的數(shù)據(jù)的任何記錄裝置。計(jì)算機(jī)可讀記錄介質(zhì)的示例包括只讀存儲(chǔ)器(ROM)、隨機(jī)存取存儲(chǔ)器(RAM)、CD-ROM、磁帶、軟盤和光學(xué)數(shù)據(jù)存儲(chǔ)裝置。例如,計(jì)算機(jī)可讀記錄介質(zhì)可以是通過(guò)因特網(wǎng)傳輸數(shù)據(jù)的載波。計(jì)算機(jī)可讀介質(zhì)可以分布在通過(guò)網(wǎng)絡(luò)相互連接的計(jì)算機(jī)系統(tǒng)之間,本發(fā)明可以存儲(chǔ)并實(shí)現(xiàn)為在分布式系統(tǒng)中的計(jì)算機(jī)可讀代碼。在本發(fā)明所屬技術(shù)領(lǐng)域中,程序員可以容易地得到用于實(shí)施本發(fā)明的功能性程序、代碼和代碼段。雖然已參照本發(fā)明的示例性 實(shí)施例具體地示出和描述了本發(fā)明,但本領(lǐng)域普通技術(shù)人員將理解的是,在不脫離由權(quán)利要求限定的本發(fā)明的精神和范圍的情況下,在此可以在形式和細(xì)節(jié)上作出各種改變。
權(quán)利要求
1.一種新型序列產(chǎn)生裝置,包括: 短片段對(duì)獲得單元,獲得分別包括至少一個(gè)未比對(duì)上短片段的短片段對(duì),所述至少一個(gè)未比對(duì)上短片段根據(jù)重測(cè)序的結(jié)果而沒(méi)有與參考序列比對(duì)上,重測(cè)序用于將從基因組序列測(cè)序儀接收的輸入短片段與參考序列進(jìn)行比對(duì); 重疊群產(chǎn)生單元,產(chǎn)生通過(guò)將所獲得的短片段對(duì)的未比對(duì)上短片段進(jìn)行連接而組裝的重疊群; 新型序列產(chǎn)生單元,產(chǎn)生包括來(lái)自產(chǎn)生的重疊群之中的至少一個(gè)重疊群的新型序列;以及 位置預(yù)測(cè)單元,預(yù)測(cè)產(chǎn)生的新型序列在參考序列上的位置。
2.根據(jù)權(quán)利要求1所述的新型序列產(chǎn)生裝置,其中,短片段對(duì)包括比對(duì)上-未比對(duì)上短片段對(duì)和未比對(duì)上-未比對(duì)上短片段對(duì),比對(duì)上-未比對(duì)上短片段對(duì)分別由與參考序列比對(duì)上的比對(duì)上短片段中的一個(gè)與未比對(duì)上短片段中的一個(gè)的對(duì)組成,未比對(duì)上-未比對(duì)上短片段分別由未比對(duì)上短片段的對(duì)組成。
3.根據(jù)權(quán)利要求2所述的新型序列產(chǎn)生裝置,其中,重疊群包括一個(gè)或多個(gè)第一重疊群和一個(gè)或多個(gè)第二重疊群,通過(guò)將比對(duì)上-未比對(duì)上短片段對(duì)的未比對(duì)上短片段連接來(lái)組裝所述一個(gè)或多個(gè)第一重疊群,通過(guò)將未比對(duì)上-未比對(duì)上短片段對(duì)的未比對(duì)上短片段連接來(lái)組裝所述一個(gè)或多個(gè)第二重疊群。
4.根據(jù)權(quán)利要求3所述的新型序列產(chǎn)生裝置,其中,新型序列包括第一新型序列和第二新型序列,通過(guò)將所述一個(gè)或多個(gè)第一重疊群之中的比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段的方向性相同的第一重疊群與第二重疊群連接獲得第一新型序列,第二新型序列基于比對(duì)上-未比對(duì)上短片段對(duì) 的比對(duì)上短片段的方向性不同的第一重疊群。
5.根據(jù)權(quán)利要求1所述的新型序列產(chǎn)生裝置,其中,新型序列產(chǎn)生單元基于與產(chǎn)生的重疊群對(duì)應(yīng)的比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段的比對(duì)質(zhì)量、構(gòu)成產(chǎn)生的重疊群的短片段的平均堿基質(zhì)量以及產(chǎn)生的重疊群的長(zhǎng)度來(lái)篩除產(chǎn)生的重疊群。
6.根據(jù)權(quán)利要求1所述的新型序列產(chǎn)生裝置,其中,位置預(yù)測(cè)單元基于比對(duì)上短片段在參考序列上的位置預(yù)測(cè)新型序列在參考序列上的位置,比對(duì)上短片段來(lái)自用于產(chǎn)生新型序列中包括的重疊群的短片段對(duì)的短片段之中,比對(duì)上短片段與參考序列比對(duì)上。
7.根據(jù)權(quán)利要求1所述的新型序列產(chǎn)生裝置,所述新型序列產(chǎn)生裝置還包括類型預(yù)測(cè)單元,類型預(yù)測(cè)單元基于與新型序列在參考序列上的預(yù)測(cè)的位置和由所述預(yù)測(cè)的位置指示的區(qū)域比對(duì)上的短片段的覆蓋深度來(lái)預(yù)測(cè)新型序列的類型,新型序列的類型包括變異新型序列和插入新型序列中的至少一個(gè),變異新型序列存在于參考序列上但表現(xiàn)出與通過(guò)重測(cè)序重構(gòu)的目標(biāo)基因組序列中的參考序列不同,插入新型序列從參考序列單獨(dú)地插入。
8.根據(jù)權(quán)利要求7所述的新型序列產(chǎn)生裝置,所述新型序列產(chǎn)生裝置還包括新型序列輸出單元,新型序列輸出單元用于輸出關(guān)于新型序列的預(yù)測(cè)的位置和預(yù)測(cè)的類型的信息。
9.一種產(chǎn)生新型序列的方法,所述方法包括: 執(zhí)行重測(cè)序,重測(cè)序?qū)⑼ㄟ^(guò)基因組序列測(cè)序獲得的輸入短片段與參考序列比對(duì); 獲得分別包括根據(jù)重測(cè)序的結(jié)果沒(méi)有與參考序列比對(duì)上的至少一個(gè)未比對(duì)上短片段的短片段對(duì); 產(chǎn)生通過(guò)將獲得的短片段對(duì)的未比對(duì)上短片段進(jìn)行連接而組裝的重疊群;產(chǎn)生包括來(lái)自產(chǎn)生的重疊群之中的至少一個(gè)重疊群的新型序列;以及 預(yù)測(cè)產(chǎn)生的新型序列在參考序列上的位置。
10.根據(jù)權(quán)利要求9所述的方法,其中,獲得短片段對(duì)包括: 獲得比對(duì)上-未比對(duì)上短片段對(duì),比對(duì)上-未比對(duì)上短片段對(duì)分別由根據(jù)重測(cè)序的結(jié)果的與參考序列比對(duì)上的比對(duì)上短片段中的一個(gè)和未比對(duì)上短片段中的一個(gè)組成;以及 獲得未比對(duì)上-未比對(duì)上短片段對(duì),未比對(duì)上-未比對(duì)上短片段對(duì)分別由根據(jù)重測(cè)序的結(jié)果的成對(duì)的未比對(duì)上短片段組成。
11.根據(jù)權(quán)利要求9所述的方法,其中,產(chǎn)生重疊群包括: 產(chǎn)生通過(guò)將比對(duì)上-未比對(duì)上短片段對(duì)的未比對(duì)上短片段進(jìn)行連接而組裝的一個(gè)或多個(gè)第一重疊群;以及 產(chǎn)生通過(guò)將未比對(duì)上-未比對(duì)上短片段對(duì)的未比對(duì)上短片段進(jìn)行連接而組裝的一個(gè)或多個(gè)第二重疊群。
12.根據(jù)權(quán)利要求11所述的方法,其中,產(chǎn)生新型序列包括: 基于與第一重疊群對(duì)應(yīng)的比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段在參考序列上的比對(duì)位置和方向性來(lái)確定所述一個(gè)或多個(gè)第一重疊群是否有效; 通過(guò)將來(lái)自所述一個(gè)或多個(gè)第一重疊群之中的比對(duì)上-未比對(duì)上短片段對(duì)的比對(duì)上短片段的方向性相同的第一重疊群與第二重疊群連接來(lái)產(chǎn)生第一新型序列;以及 基于比對(duì)上-未比對(duì) 上短片段對(duì)的比對(duì)上短片段的方向性不同的第一重疊群來(lái)產(chǎn)生第二新型序列。
13.根據(jù)權(quán)利要求9所述的方法,其中,預(yù)測(cè)產(chǎn)生的新型序列的位置包括:基于來(lái)自用于產(chǎn)生新型序列中包括的重疊群的短片段對(duì)的短片段之中的與參考序列比對(duì)上的比對(duì)上短片段在參考序列上的位置,預(yù)測(cè)新型序列在參考序列上的位置。
14.根據(jù)權(quán)利要求9所述的方法,所述方法還包括基于與新型序列在參考序列上的預(yù)測(cè)的位置和由所述預(yù)測(cè)的位置指示的區(qū)域比對(duì)上的短片段的覆蓋深度來(lái)預(yù)測(cè)新型序列的類型, 其中,新型序列的類型包括變異新型序列和插入新型序列中的至少一個(gè),變異新型序列存在于參考序列上但表現(xiàn)出與通過(guò)重測(cè)序重構(gòu)的目標(biāo)基因組序列中的參考序列不同,插入新型序列從參考序列單獨(dú)地插入。
全文摘要
本發(fā)明提供了在目標(biāo)基因組序列中產(chǎn)生新型序列的裝置和方法。該裝置和方法用于在下一代測(cè)序(NGS)技術(shù)的基因組重測(cè)序過(guò)程中通過(guò)使用沒(méi)有與參考序列比對(duì)上的輸入短片段產(chǎn)生在參考序列中不存在的新型序列。根據(jù)本發(fā)明,產(chǎn)生了目標(biāo)基因組序列的參考序列所未反映的新型序列,并且可以提供新型序列的信息。
文檔編號(hào)C12Q1/68GK103087906SQ20121042808
公開日2013年5月8日 申請(qǐng)日期2012年10月31日 優(yōu)先權(quán)日2011年10月31日
發(fā)明者洪侑辰, 李勇錫, 申守容 申請(qǐng)人:三星Sds株式會(huì)社
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
青神县| 宝丰县| 承德市| 洛南县| 高尔夫| 祥云县| 遵化市| 古丈县| 太谷县| 会泽县| 陇川县| 聂拉木县| 灌云县| 沙坪坝区| 深圳市| 黔南| 西青区| 鸡泽县| 香港| 株洲县| 双桥区| 江源县| 观塘区| 太和县| 章丘市| 涞水县| 湖北省| 邢台县| 芜湖市| 西宁市| 馆陶县| 天气| 浙江省| 黄平县| 鲜城| 琼结县| 旺苍县| 偃师市| 泽州县| 文山县| 潍坊市|