專利名稱:一種潛在的n連接的糖基化位點氨基酸序列快速查找分析方法
技術領域:
本發(fā)明涉及一種借助計算機快速查找數(shù)據(jù)的方法,具體涉及一種潛在的N連接糖基化位點氨基酸序列快速查找分析方法。
背景技術:
隨著功能蛋白質組學與糖蛋白質組學的發(fā)展,高通量的蛋白質分析技術導致了蛋白質序列數(shù)據(jù)庫中收錄的氨基酸序列數(shù)據(jù)急劇增加,如何對數(shù)據(jù)庫中大量的數(shù)據(jù)進行分析,從中發(fā)掘出有價值的生物學信息就成為擺在生命科學研究者面前的一大難題,使用電子計算機和生物信息學軟件代替人工勞動,可以在一定程度上解決這個問題。2009年,甲型Hmi流感病毒Qnfluenza A HlNl,又稱為豬流感病毒, SwineInfluenza Virus)引起人類歷史上的又一次流感大流行,給人們的生命健康帶來嚴重的威脅。眾多研究表明,決定流感病毒感染性、毒力和宿主選擇性的主要因素在于病毒表面包膜糖蛋白血凝素(Influenza Hemagglutinin, HA)和神經(jīng)氨酸酶(Influenza Neuraminidase, ΝΑ)的結構與功能。HA在病毒的進入宿主細胞的過程中起作用,NA在病毒裝配完成、出芽成熟過程中起作用。流感病毒血凝素既是一種糖蛋白,又是一種糖結合蛋白。包膜表面的血凝素三聚體可以特異性地識別宿主呼吸系統(tǒng)細胞膜上的末端含有唾液酸的糖鏈受體。血凝素與受體的結合導致血凝素三聚體發(fā)生構象變化,介導病毒包膜和宿主細胞膜的融合。蛋白質糖基化形式主要有0連接的糖基化和N連接的糖基化,在少數(shù)情況下還發(fā)現(xiàn)C(半胱氨酸)連接的糖基化。目前有報道的研究認為血凝素分子表面的糖基化全部為N連接的糖基化,0連接的糖基化是否存在還未見報道。而蛋白質N連接的糖基化是在糙面內(nèi)質網(wǎng)內(nèi)側,由糖基轉移酶將合成好的糖鏈連接到肽鏈上特殊的糖基化位點的天冬氨酸殘基上形成的。N連接的糖基化過程是一種邊翻譯邊修飾的過程,糖基化程度對肽鏈折疊產(chǎn)生影響。N連接糖基化的位點符合Asp-XXX-Thr/Ser(N-X-T/S)的sequon序列,其中X不能是ft~o。并且糖基化與否還與周圍氨基酸的親水性、電荷性質等因素有關。N連接的糖基化存在sequon序列的特點使得本軟件的設計成為可能。另外,質譜作為糖蛋白質組學中重要的研究技術,在定量研究糖蛋白質的糖基化位點、糖鏈結構中起著非常重要的作用。在質譜檢測之前,通常需要用內(nèi)切蛋白酶將較長的肽鏈切割成較短的肽鏈。胰蛋白酶能夠識別堿性氨基酸賴氨酸或精氨酸,并在堿性氨基酸的C端斷裂肽鏈。在設計軟件時,將sequon兩端的胰蛋白酶切割位點考慮在內(nèi),使軟件可以自動輸出包含sequon序列的去除糖鏈的肽段經(jīng)胰蛋白酶解后的短肽序列。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種潛在的N連接糖基化位點氨基酸序列快速查找分析方法,其解決了背景技術中蛋白質序列數(shù)據(jù)庫中收錄的氨基酸序列數(shù)據(jù)龐大,無法實現(xiàn)快速分析潛在的N連接糖基化位點的技術問題。本發(fā)明的技術解決方案是一種氨基酸序列快速查找分析方法,利用kquon finder軟件查找蛋白質數(shù)據(jù)庫中的氨基酸序列。該方法包括以下步驟一種潛在的N連接的糖基化位點氨基酸序列快速查找分析方法,其特殊之處在于該方法是利用kquon finder軟件查找分析蛋白質數(shù)據(jù)庫中的氨基酸序列。上述的氨基酸序列快速查找分析方法,其特殊之處在于該方法的分析包括單序列分析和多序列比較分析。上述單序列分析包括1)啟動kquon finder軟件,如果該kquon finder軟件運行正常,其主界面的下方的信息提供區(qū)域將會顯示“ready ! ”字樣,這時,便可通過“Open File”按鈕,載入欲查找分析的氨基酸序列,最后在“output”工作區(qū)中以表格形式輸出了分析結果并在信息提供區(qū)域顯示注釋信息;2)在Help菜單、快捷方式欄或Controller工作區(qū)點擊B印aint按鈕,將“output” 工作區(qū)中的分析結果中的可能的糖基化位點序列顯示為紅色,從而得知該氨基酸序列中可能發(fā)生糖基化的sequon序列;3)再從Output工作區(qū)得到單條序列的sequon數(shù)、類型以及包含sequon的胰蛋白酶切割片段位置、序列的信息。4)根據(jù)上述Output工作區(qū)顯示的信息判斷N連接的糖基化位點的潛在位置。上述多序列比較分析包括在“File”工作區(qū)域的上半部分選擇欲分析的氨基酸序列,最后將該氨基酸序列的查找分析結果按照fasta格式要求分行包含在同一個文件中,再通過點擊“Controller”工作區(qū)中的“ summary ”按鈕,彈出“ summary ”對話框,分析所述文件中每一條序列的糖基化位點和每個位點在序列中的比例。上述的氨基酸序列快速查找分析方法,其特殊之處在于左鍵點擊“summary”對話框中相應糖基化位點所在的行,觀察胰蛋白酶切割得到的片段是否存在多態(tài)性。上述的氨基酸序列快速查找分析方法,其特殊之處在于當胰蛋白酶切割得到的片段存在多態(tài)性時,通過在controller工作區(qū)中點擊details按鈕,以確定該多態(tài)性所在的序列。對于多序列比較分析1.從龐雜的相似序列中找到特殊的糖基化位點、并從特殊的糖基化位點尋找到相應的序列的方法。目前現(xiàn)有的分析方法都是從分析單一序列的糖基化位點開始的,思路都是首先通過實驗得到一種糖蛋白的氨基酸序列,然后分析存在的糖基化類型和糖基化位點。而本方法可以從較多中樣本中首先查找到較特殊的糖基化位點,然后反過來尋找這種糖基化位點來自那些特殊序列,利于進一步分析。具體操作是從Summary對話框和 Details對話框中找到百分比較小的糖基化位點,以鼠標左鍵點擊Details對話框相應的糖基化位點所在的行后中給出的序列注釋尋找到相應的序列。因為每一條序列都代表著一個蛋白質,這些蛋白質都是采集的樣本經(jīng)過測序得到的,這種異常序列中可能就蘊藏著攻克一種疾病的方法。2.新的糖基化位點統(tǒng)計的方法。以往的糖基化位點統(tǒng)計方法主要是研究單一序列的糖基化位點。由于一次實驗得到的序列可能存在特殊性,研究者首先將多條序列進行比對,找到一致序列,然后查找一致序列上的糖基化位點,最后用一致序列與每條序列相比較。找出與一致序列上的糖基化位點列不能反映該蛋白質的一致序列的優(yōu)點是能反映多條序列總體上的糖基化位點出現(xiàn)趨勢,但是存在缺陷。如果這多條序列之間相似程度比較小,一致序列就會缺失很多細節(jié),比較結果不可靠。在Details和Summary對話框中,我們其實提出了兩種糖基化位點統(tǒng)計方法。在Summary對話框中,我們假設NXT和NXS的不同并不會影響糖基化的可能性高低,另外,由于胰蛋白酶切割蛋白質是發(fā)生在實驗過程中而不是自然過程,胰蛋白酶切割片段的大小的生物學意義不大。因此在Summary對話框中,只要sequon序列,也就是NXT/S特征序列出現(xiàn)在相同的位點上,就統(tǒng)計為同一個糖基化位點。 這種方法可以大致統(tǒng)計出糖基化位點的存在情況,但不夠精確。因此提出第二種統(tǒng)計方法。 在Details對話框中,判斷標準極其嚴格,只有當滿足sequon出現(xiàn)位點相同、sequon形式相同(不僅是區(qū)分出NXT或NXS,X所代表的氨基酸必須也相同)、胰蛋白酶切割后得到的片段完全相同這三個條件時,才統(tǒng)計為同一個糖基化位點。正因為要求如此嚴格,如果在實際科學研究中發(fā)現(xiàn)某一個糖基化位點占據(jù)了非常高的比例,比如超過95%,不光可以假設這一糖基化位點具有保守性,同時可以假設這一糖基化位點周圍一定范圍內(nèi)的氨基酸都具有保守性。也就是說這些氨基酸如果發(fā)生突變,可能對研究的蛋白質的生物學功能產(chǎn)生較大影響。3.完成了按照新的統(tǒng)計方法下的不同序列之間由胰蛋白酶切割同一個糖基化位點產(chǎn)生不同片段的展示的方法。如前述可以看出,此處新的統(tǒng)計方法指的是Summary對話框中提出的簡單的統(tǒng)計方法。鼠標左鍵點擊Summary對話框相應糖基化位點對應的行,可以看到包含同一糖基化位點的胰蛋白酶切割形式有幾種、每種相似性如何、如果有變化,哪里發(fā)生了變化。如果發(fā)現(xiàn)值得關注的多態(tài)形式,又需要進一步確定是哪幾條序列造成這種多態(tài)形式,可以結合Details對話框進行。正是這種比較的需要,我們引入了 Splitter對話框,Splitter對話框其實就是把Details對話框和Summary對話框左右排列,便于比較。 選擇在前兩個對話框基礎上再加一個對話框而不是直接用Splitter對話框代替Summary 和Details對話框是基于顯示的原因,顯示屏過小、分析的序列切割片段長度過長都會使 Splitter對話框顯得過于擁擠。本發(fā)明的優(yōu)點在于1)計算單條肽序列潛在的糖基化位點的數(shù)目、潛在糖基化位點在氨基酸序列中的確切位置,能夠顯示每一位點的sequon序列,能夠顯示包含sequon序列的經(jīng)胰蛋白酶解后的短肽在肽段中的起始位點與終止位點,并能夠顯示短肽的一致序列?;冒碞CBI索引號顯示單條肽輸入的全部序列,將sequon序列以紅色字體顯示。3)在summary表格中統(tǒng)計提交的所有肽序列的糖基化位點的數(shù)目、潛在糖基化位點在氨基酸序列中的確切位置,顯示該糖基化位點在序列中的保守性,顯示包含該糖基化位點酶解的序列多態(tài)性。4)在details表格中列出具有相同糖基化位點、酶解后能得到相同序列的序列的 NCBI索引號,便于進行生物學信息的分析。
5)在splitter表格中將summary和details表格中的內(nèi)容并排顯示,便于左右對照。
名稱注釋No. of N-Iinked glycosylation sites糖基化位點的序號From從To到SequonSequon序歹丨JSequon positionsequon序歹Ij位置Amino acid sequence氨基酸序列Sequon finderSequon finder 軟件File文件Tools工具Help幫助Controller控制區(qū)Bepint !改變顏色Details詳細分析Summary總結Splitter對照Output輸出ready準備就緒BioProject生物工程Insert Data加入數(shù)據(jù)Cancel取消MainWindow主窗口Glycosylation sites糖基化位點Percent(number)strains with含有保守序列的氨基酸序列占所有分析序列的百分比(含sequence conserved有保守序列的氨基酸序列占所有分析序列的數(shù)目)residue胰蛋白酶切割片斷位置
具體實施例方式單條序列分析以從NCBI流感病毒數(shù)據(jù)庫中下載的一條2009甲型Hmi病毒血凝素氨基酸序列為例說明單條序列分析過程。本序列的基因識別號為238695709,蛋白質數(shù)據(jù)庫收錄號為 ACR54994。樣品采自中國北京。1.運行sequon finder,由圖1可見,在信息提供區(qū)域出現(xiàn)ready !字樣表示啟動
圖1是sequon finder主界面; 圖2是載入序列顯示界面; 圖3是潛在糖基化位點顯示界面; 圖4是summary對話框顯示界面; 圖5是酶切片段多態(tài)性顯示界面; 圖6是Details對話框顯示界面; 圖7是感興趣的糖基化位點注釋顯示界面; 圖8是spitter對話框顯示界面。 附圖注釋如下正常。2.載入序列參見圖2,可以看到file工作區(qū)標題變?yōu)檩d入的文件名(ACRM994. fa)。上半部分顯示蛋白質或肽序列的NCBI數(shù)據(jù)庫錄入號(gi I 238695709 | gb|ACR54994 |), 下半部分顯示完整序列MKAILVVLLYTFATANADTLCIGYHANNSTDTVDTVLEKNVTVTHSVNLLEDKHNGKLCKLRGVAPLHL GKCNIAGWILGNPECESLSTASSWSYIVETSSSDNG TCYPGDFIDYEELREQLSSVSSFERFEIFPKTSSWPNHDS NKGVTAACPHAGAKSFYKNLIWLVKKGNSYPKLSKSYINDKGKEVLVLWGIHHPSTSADQQSLYQNADAYVFVGS S RYSKKFKPEIAIRPKVRDQEGRMNYYWTLVEP⑶KITFEATGNLVVPRYAFAMERNAGSGIIISDTPVHDCNTTCQT PKGAINTSLPFQNIHPITIGKCPKYVKSTKLRLATGLRNVPSIQSRGLFGAIAGFIEGGWTGMVDGWYGYHHQNEQG SGYAADLKSTQNAIDEITNKVNSVIEKMNTQFTAVGKEFNHLEKRIENLNKKVDDGFLDIWTYNAELLVLLENERTL DYHDSNVKNLYEKVRSQLKNNAKEIGNGCFEFYHKCDNTCMESVKNGTYDYPKYSEEAKLNREEIDGVKLESTRIYQ ILAIYSTVASSLVLWSLGAISFWMCSNGSLQCRICI。在output工作區(qū)中以表格形式輸出了分析結果。信息提供區(qū)域顯示了注釋信息/Human/HA/HlNl/China/2009/05/15/ hemagglutinin[Influenza A virus(A/Beijing/01/2009(HlNl))]3.如圖3所示,在Help菜單、快捷方式欄或Controller工作區(qū)點擊B印aint按鈕后氨基酸序列中可能的糖基化位點序列將顯示為用紅色。4.結合以上這些信息可以知道ACR54994序列含有8個sequon序列,也就是在這8 個位置的天冬氨酸殘基上有可能發(fā)生糖基化,具體的糖基化發(fā)生的比率和在哪一些sequon 更容易發(fā)生糖基化超出了本軟件的預測范圍。另外,由于糖鏈合成和蛋白質折疊的復雜性, 必須結合實驗才能確定糖基化位點。Output工作區(qū)已經(jīng)給出了胰蛋白酶酶切后可能產(chǎn)生的肽段序列,結合質譜分析,可以確定糖基化位點。5. file工作區(qū)和output工作區(qū)的顯示結果均可以采用復制-黏貼的方法保存在其他文件中,如文本文件(txt)、Word等。多序列比較分析多序列比較除了能夠協(xié)助質譜分析,發(fā)現(xiàn)糖基化位點外,還可以進行分子進化方面的研究。通過比較不同時期、不同地點采集的樣本的氨基酸序列中潛在糖基化位點數(shù)目、 潛在糖基化位點位置、胰蛋白酶切割肽段多態(tài)性的變化,有助于了解病毒變異的信息。以本軟件開發(fā)者在2009年12月5日從NCBI流感病毒數(shù)據(jù)庫中下載的甲型Hmi病毒血凝素數(shù)據(jù)為例介紹軟件使用方法。文件名為Hmi_human_China_ha_20091205蛋白質序列搜索結果.fa,表示是2009年12月25日搜索的、以人為宿主、地域范圍為中國、病毒亞型為Hmi 的HA蛋白序列。得到85條序列。1.對感興趣的序列進行單條序列分析。待分析的多條序列必須按照fasta格式要求分行包含在同一個文件中。序列載入中會有進度條提示,可以在file工作區(qū)上半部分選擇需要分析的序列。2.在Controller工作區(qū)中點擊summary按鈕,彈出summary對話框,參見圖4,此時主窗口變?yōu)榛疑?不可編輯)。分析這85條序列的糖基化位點和每個位點在序列中的比例。Summary對話框顯示的是輸入的所有序列的糖基化位點統(tǒng)計情況,同樣以列表形式顯示。分為3列,前兩列是數(shù)目統(tǒng)計和糖基化位點統(tǒng)計,和單序列分析時output工作區(qū)的意義一樣。第三列名為 percent (number) strains with sequenceconserved,括號夕卜的數(shù)值為該糖基化位點在所有序列中出現(xiàn)的百分比,括號內(nèi)為出現(xiàn)的條數(shù)。只要在某一位點出現(xiàn)sequon,就認為是一個潛在的糖基化位點,由于所有序列并沒有經(jīng)過序列比對,summary 中的糖基化位點數(shù)目將遠遠超過單條序列的糖基化位點的統(tǒng)計數(shù)目。這種方法的缺點是一條病毒序列如果在前幾位發(fā)生一到兩個氨基酸增加或缺失,之后所有的糖基化位點都會發(fā)生錯位,被認為是完全不同的糖基化位點。這種方法的好處是盡最大可能保留了多條序列的細節(jié)信息,避免了由于尋找一致序列忽視了個別氨基酸序列的變異。在統(tǒng)計總體糖基化位點數(shù)目的時候,只要設定一定的閾值,就能夠排除大量由于上述氨基酸錯位產(chǎn)生的對糖基化位點數(shù)目的錯誤估計。具體的說,對于1號糖基化位點,第三列的括號內(nèi)(8 表示在83條序列的沈位出現(xiàn)了糖基化位點,括號外的97. 6471表示這個數(shù)值占序列總條數(shù)85 的 97. 6%。summary中統(tǒng)計的潛在糖基化位點有25個,而對單序列的分析結果知道,每個序列的潛在糖基化位點也就是7、8個,都不超過10個。說明在解釋時確實需要小心。3.參見圖5,左鍵點擊相應糖基化位點所在的行,可以觀察胰蛋白酶切割得到的片段是否存在多態(tài)性。對于3號位點,只有一條序列,很有可能是由于發(fā)生了序列中氨基酸增加或缺失造成的錯位。4.如果想了解1號位點中的多態(tài)性到底來自那些序列,就需要用到details對話框。關閉summary對話框,在controller工作區(qū)中點擊details按鈕。如圖6,details表中將氨基酸序列中summary表中同一位置(27位)的潛在糖基化位點統(tǒng)計成了 6條。第三列residue表示胰蛋白酶切割產(chǎn)生的片段的起止位置。在 Details表中,胰蛋白酶切割產(chǎn)生的片段的起止位置不同和切割片段的多態(tài)現(xiàn)象都會統(tǒng)計為不同的糖基化位點。這樣可以發(fā)現(xiàn)多態(tài)肽段中哪幾個含量比較多,哪幾個是個別現(xiàn)象。如圖7所示,單擊感興趣的糖基化位點,可以得到滿足該糖基化位點的序列在 NCBI上的基因識別代碼和蛋白質識別代碼。對于個別現(xiàn)象,可以根據(jù)這些代碼在NCBI或相關數(shù)據(jù)庫中搜索,確定病毒是否新出現(xiàn)的變異。5.由于打開detail對話框之前必須關閉summary對話框,不利于兩個表格比較,因此在controller工作區(qū)中又設計了一個按鈕splitter,參見圖8,點擊它即按鈕 splitter,可以打開spitter對話框,可以看到它是summary和details對話框的整合,這樣便于左右比較。
權利要求
1.一種潛在的N連接的糖基化位點氨基酸序列快速查找分析方法,其特征在于該方法是利用kquon finder軟件查找分析蛋白質數(shù)據(jù)庫中的氨基酸序列。
2.根據(jù)權利要求1所述的氨基酸序列快速查找分析方法,其特征在于該方法的分析包括單序列分析和多序列比較分析。
3.根據(jù)權利要求2所述的氨基酸序列快速查找分析方法,其特征在于所述單序列分析包括1)啟動kquonfinder軟件,如果該kquon finder軟件運行正常,其主界面的下方的信息提供區(qū)域將會顯示“ready ! ”字樣,這時,便可通過“Open File”按鈕,載入欲查找分析的氨基酸序列,最后在“output”工作區(qū)中以表格形式輸出了分析結果并在信息提供區(qū)域顯示注釋信息;2)在Help菜單、快捷方式欄或Controller工作區(qū)點擊B印aint按鈕,將“output”工作區(qū)中的分析結果中的可能的糖基化位點序列顯示為紅色,從而得知該氨基酸序列中可能發(fā)生糖基化的sequon序列;3)再從Output工作區(qū)得到單條序列的sequon數(shù)、類型以及包含sequon的胰蛋白酶切割片段位置、序列的信息。4)根據(jù)上述Output工作區(qū)顯示的信息判斷N連接的糖基化位點的潛在位置。
4.根據(jù)權利要求2所述的氨基酸序列快速查找分析方法,其特征在于所述多序列比較分析包括在“File”工作區(qū)域的上半部分選擇欲分析的氨基酸序列,最后將該氨基酸序列的查找分析結果按照fasta格式要求分行包含在同一個文件中,再通過點擊“Controller”工作區(qū)中的“summary”按鈕,彈出“summary”對話框,分析所述文件中每一條序列的糖基化位點和每個位點在序列中的比例。
5.根據(jù)權利要求4所述的氨基酸序列快速查找分析方法,其特征在于左鍵點擊 “summary”對話框中相應糖基化位點所在的行,觀察胰蛋白酶切割得到的片段是否存在多態(tài)性。
6.根據(jù)權利要求5所述的氨基酸序列快速查找分析方法,其特征在于當胰蛋白酶切割得到的片段存在多態(tài)性時,通過在controller工作區(qū)中點擊details按鈕,以確定該多態(tài)性所在的序列。
全文摘要
一種潛在的N連接的糖基化位點氨基酸序列快速查找分析方法,該方法是利用Sequon finder軟件查找分析蛋白質數(shù)據(jù)庫中的氨基酸序列。本發(fā)明能計算單條肽序列潛在的糖基化位點的數(shù)目、潛在糖基化位點在氨基酸序列中的確切位置,能夠顯示每一位點的sequon序列,能夠顯示包含sequon序列的經(jīng)胰蛋白酶解后的短肽在肽段中的起始位點與終止位點,并能夠顯示短肽的一致序列;在summary表格中統(tǒng)計提交的所有肽序列的糖基化位點的數(shù)目、潛在糖基化位點在氨基酸序列中的確切位置,顯示該糖基化位點在序列中的保守性,顯示包含該糖基化位點酶解的序列多態(tài)性,對潛在的N連接的糖基化位點氨基酸序列研究具有積極意義。
文檔編號G06F19/22GK102194060SQ20101011896
公開日2011年9月21日 申請日期2010年3月5日 優(yōu)先權日2010年3月5日
發(fā)明者孫士生, 李錚, 王秦哲, 秦子實 申請人:西北大學