欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種抽取蛋白質(zhì)相互作用關系的方法

文檔序號:6437718閱讀:249來源:國知局
專利名稱:一種抽取蛋白質(zhì)相互作用關系的方法
技術領域
本發(fā)明屬于文本處理技術領域,尤其涉及一種抽取蛋白質(zhì)相互作用關系的方法。
背景技術
蛋白質(zhì)作為生命活動最主要的載體和功能執(zhí)行者,其復雜多樣的結構功能、相互作用和動態(tài)變化能在分子、細胞和生物體等多個層次上全面揭示生命現(xiàn)象。其中蛋白質(zhì)相互作用關系(PPI,Protein-Protein Interaction)是指生命活動過程中蛋白質(zhì)之間存在的相互關系,如綁定、催化、交互等。對蛋白質(zhì)相互作用關系的研究有助于揭示生命過程的許多本質(zhì)問題。這些關系對生物知識網(wǎng)絡的建立,生物體關系預測,新藥研制等均具有重大的意義。隨著人類基因組測序的完成,蛋白質(zhì)的功能、作用機制成為新的研究熱點。在生物醫(yī)學領域已有大量的,并且正在不斷涌現(xiàn)的,有關蛋白質(zhì)之間相互作用關系的研究文獻。如何從生物醫(yī)學文獻中挖掘、整理出蛋白質(zhì)相互作用關系是當今生物信息學的熱點任務之一。蛋白質(zhì)相互作用關系抽取就是借助于計算機這一手段從生物醫(yī)學文獻中抽取出生物實體-蛋白質(zhì)之間的相互作用關系,并為蛋白質(zhì)關系網(wǎng)絡的構建提供良好的基礎。蛋白質(zhì)關系抽取的方法可分為基于特征向量的方法和基于核函數(shù)的方法。在基于核函數(shù)的蛋白質(zhì)相互作用關系抽取方法中,按所使用的語言信息不同,可分為基于依存關系的方法和基于句法樹(Syntactic ParseTree)的方法,并且前者可將蛋白質(zhì)相互作用關系表示成最短依存路徑或依存圖。表征蛋白質(zhì)相互作用關系抽取方法性能的參數(shù)主要包括準確率、召回率和Fl性能。上述方法均具有缺陷最短依存路徑提供了表達蛋白質(zhì)關系實例的最簡潔的表示方法,但是由于它由詞匯及其依存關系組成,表達形式過于具體,通用性不強,因此基于最短依存路徑的方法雖具有較高精度,但其召回率較低;基于依存圖的方法則將與兩個蛋白質(zhì)相關的所有依存關系及其詞匯構成一個有向圖,通過計算圖之間的相似度進行蛋白質(zhì)相互作用關系抽取,但是由于在計算依存圖之間的相似度時,只要它們有相同的子圖就能實現(xiàn)匹配,因而依存圖中包含一定的噪音,導致精度較低,并且計算依存圖之間相似度所需的系統(tǒng)開銷較大;基于句法樹的蛋白質(zhì)相互作用關系抽取方法則將蛋白質(zhì)相互作用關系表示成句法樹,雖然句法樹中包含著豐富的結構化信息,但同時也含有太多的噪音,導致精度較低。因此,上述三種抽取蛋白質(zhì)相互作用關系的方法,因其召回率或精度較低,導致其總體性能較差。

發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種蛋白質(zhì)相互作用關系抽取方法,以解決現(xiàn)有技術中總體性能較差的問題,同時提高通用度,并降低系統(tǒng)開銷。為實現(xiàn)上述目的,本發(fā)明提供如下技術方案一種抽取蛋白質(zhì)相互作用關系的方法,用于在包含兩個蛋白質(zhì)名稱的自然語句中抽取蛋白質(zhì)相互作用關系,所述方法包括
對所述自然語句進行句法分析,確定所述自然語句的完全句法樹,在所述完全句法樹中提取所述兩個蛋白質(zhì)名稱之間的最短成分路徑;對所述自然語句進行依存關系分析,確定所述自然語句的依存關系樹,在所述依存關系樹中提取所述兩個蛋白質(zhì)名稱之間的最短依存路徑;根據(jù)所述最短依存路徑擴展所述最短成分路徑,確定擴展后的成分路徑為所述自然語句的關系樹;
S利用預存的分類模型對所述關系樹進行二元分類,當Σ不小于
J=I
0時,確定所述關系樹為蛋白質(zhì)相互作用關系,其中,、為分類模型中的支撐向量,a"為分類模型中的支撐向量的權重,\為分類模型中的支撐向量、的實例,A為分類模型中的支撐向量、的標號,ζ為所述自然語句的關系樹Λ(\,ζ)為卷積樹核函數(shù)。優(yōu)選的,在上述方法中,根據(jù)所述最短依存路徑擴展所述最短成分路徑的過程,包括確定所述最短依存路徑中位于兩個所述蛋白質(zhì)名稱所在的詞匯結點之間的詞匯結點為待處理結點組;將所述待處理結點組中的一個詞匯結點作為當前詞匯結點,并將所述當前詞匯結點從待處理結點組中刪除;確定所述當前詞匯結點與其下層詞匯結點之間的依存類型;當所述當前詞匯結點與其下層詞匯結點之間的依存類型為論元類型時,確定所述當前詞匯結點處的結點詞匯,在所述完全句法樹中獲取所述結點詞匯所在結點連接到所述最短成分路徑的擴充路徑,所述擴充路徑的一端為所述結點詞匯所在的結點、另一端為所述最短成分路徑中的一個結點;判斷所述待處理結點組是否為空;當所述待處理結點組不為空時,將所述待處理結點組中的一個詞匯結點作為當前詞匯結點,并將所述當前詞匯結點從所述待處理結點組中刪除,執(zhí)行確定所述當前詞匯結點與其下層詞匯結點之間的依存類型的步驟;當所述待處理結點組為空時,將所述擴充路徑與所述最短成分路徑合并,對所述最短成分路徑進行擴充。優(yōu)選的,在上述方法中,確定所述當前詞匯結點與其下層詞匯結點之間的依存類型后,還包括當所述當前詞匯結點與其下層詞匯結點之間的依存類型為修飾類型時,確定所述當前詞匯結點處的結點詞匯,在所述完全句法樹中獲取所述結點詞匯所在結點連接到所述最短成分路徑的擴充路徑;判斷所述修飾類型是否為介詞類型;若是,則從所述依存類型中提取出介詞,確定所述介詞為結點詞匯,在所述完全句法樹中獲取所述結點詞匯所在結點連接到所述最短成分路徑的擴充路徑,執(zhí)行判斷所述待處理結點組是否為空的步驟;若否,則執(zhí)行判斷所述待處理結點組是否為空的步驟;所述擴充路徑的一端為所述結點詞匯所在的結點、另一端為所述最短成分路徑中的一個結點。
優(yōu)選的,在上述方法中,確定所述當前詞匯結點與其下層詞匯結點之間的依存類型后,還包括當所述當前詞匯結點與其下層詞匯結點之間的依存類型為論元類型和修飾類型之外的類型時,執(zhí)行判斷所述待處理結點組是否為空的步驟。優(yōu)選的,在上述方法中,在對所述最短成分路徑進行擴充之后,還包括判斷擴充后的成分路徑中是否包含父結點和子結點均為名詞短語或動詞短語的邊,若包含,則將所述邊中的子結點刪除,將位于所述子結點下層的結點上移至所述子結點所在的結點,執(zhí)行利用預存的分類模型對所述關系樹進行二元分類的步驟,若不包含,執(zhí)行利用預存的分類模型對所述關系樹進行二元分類的步驟。優(yōu)選的,在上述方法中,確定所述當前詞匯結點與其下層詞匯結點之間的依存類型的過程中,若所述當前詞匯結點為所述最短依存路徑的根節(jié)點,則確定所述根節(jié)點與位于其下層的任意一個詞匯結點之間的依存類型。優(yōu)選的,在上述方法中,還包括提取分類模型的步驟。由此可見,本發(fā)明的有益效果為本發(fā)明公開的抽取蛋白質(zhì)相互作用關系的方法中,從兩個蛋白質(zhì)之間的最短成分路徑出發(fā),使用詞匯之間的依存關系來決定哪些詞匯及其相關成分要加入到關系樹中,最終得到一棵準確且簡潔的關系樹,然后再利用基于卷積樹核函數(shù)的機器學習方法來抽取蛋白質(zhì)之間的相互作用關系。由于這樣的關系樹包含了豐富的結構化信息,通用性較好,因而同基于依存路徑的抽取方法相比,提高了召回率;同時本發(fā)明的關系樹剔除了完全句法樹中的噪音,其準確性得到了提高,因而同基于依存圖的方法相比,提高了精度,并且計算樹之間相似度的復雜度明顯小于計算圖之間相似度的復雜度,由此減小了系統(tǒng)開銷;另外,同其它基于句法樹的方法相比,通過詞匯依存關系加入的信息都是必要和有用的,因而精度和召回率都得到了提高,總體性能也較好。


為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明公開的一種抽取蛋白質(zhì)相互作用關系的方法的流程圖;圖2為本發(fā)明中在完全句法樹中提取兩個蛋白質(zhì)名稱之間的最短成分路徑的方法的流程圖;圖3為本發(fā)明中確定自然語句依存關系樹的方法的流程圖;圖4為本發(fā)明中在依存關系樹中提取兩個蛋白質(zhì)名稱之間的最短依存路徑的方法的流程圖;圖5為本發(fā)明中一種根據(jù)最短依存路徑擴充最短成分路徑的方法流程圖;圖6為本發(fā)明中另一種根據(jù)最短依存路徑擴充最短成分路徑的方法流程圖;圖7為本發(fā)明中一個自然語句的完全句法樹;圖8為從圖7所示完全句法樹中提取出的兩個蛋白質(zhì)名稱之間的最短成分路徑;圖9為本發(fā)明中一個自然語句的依存關系樹;
圖10為從圖9所示依存關系樹中提取出的兩個蛋白質(zhì)名稱之間的最短依存路徑;圖11為根據(jù)圖10所示最短依存路徑擴充后的成分路徑;圖12為本發(fā)明中一個自然語句的關系樹。
具體實施例方式為了描述清楚起見,對下文中出現(xiàn)的英文縮寫和術語進行說明。PPI =Protein-Protein hteraction,蛋白質(zhì)相互作用關系,是指在生命活動過程中蛋白質(zhì)之間存在的某種相互作用關系,如綁定、催化、交互等;句法樹=Syntactic Parse Tree,是指自然語言句子的不同成分之間(如詞匯、詞性、短語和子句等)所存在的層次結構關系;關系樹delation Tree,在句法樹中能表達蛋白質(zhì)關系實例的結構化信息的部分;依存樹=D^endency Tree,按自然語言句子中詞匯之間所存在的語法關系而構成的樹,如名詞和動詞之間存在的主謂關系;準確率Precision,是指系統(tǒng)識別出的蛋白質(zhì)相互作用關系實例中正確的關系實例所占的百分比;召回率=Recall,是指系統(tǒng)識別出的正確的蛋白質(zhì)相互作用關系實例占所有關系實例的百分比;Fl性能Fl-meaSure,是指準確率和召回率的平均值,計算公式為Fl = 2*P*R/ (P+R);PCFG Probabilistic Context-Free Grammar,概率上下文無關文法;MLE :Maximum Likely Estimation,最大似然估計。為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。本發(fā)明公開了一種抽取蛋白質(zhì)相互作用關系的方法,利用該方法在包含兩個蛋白質(zhì)名稱的自然語句中抽取蛋白質(zhì)相互作用關系的過程中,從完全句法樹中抽取出能準確和簡潔表達蛋白質(zhì)相互作用關系實例的句法樹,該句法樹稱為關系樹,可以提高通用性、召回率和精度,從而提高整體性能,同時,與基于依存圖的抽取方法相比,可以降低系統(tǒng)開銷。其原理如下從兩個蛋白質(zhì)名稱之間的最短成分路徑出發(fā),使用詞匯之間的依存關系來決定哪些詞匯及其相關成分要加入到該最短成分路徑中,最終得到一棵準確且簡潔的關系樹,然后再利用基于樹核函數(shù)的機器學習方法來抽取蛋白質(zhì)之間的相互作用關系。下面結合具體實施例對本發(fā)明公開的方法進行說明。參見圖1,圖1為本發(fā)明公開的一種抽取蛋白質(zhì)相互作用關系的方法的流程圖。包括步驟Sl 對自然語句進行句法分析,確定該自然語句的完全句法樹。在生物醫(yī)學文獻中提取一個自然語句,該自然語句中包含兩個蛋白質(zhì)名稱,利用一種句法分析方法對該自然語句進行句法分析,得到該自然語句的完全句法樹。本發(fā)明中采用概率上下文無關文法Probabilistic Context-Free Grammar, PCFG)的句法分析方法來獲得自然語句的完全句法樹。其基本思想是,一棵句法樹的概率是由其包含的產(chǎn)生式概率決定的,產(chǎn)生式的概率與其出現(xiàn)的上下文無關,而且可以從訓練語料庫中采用最大似然估計(Maximum LikelyEstimation, MLE)的方法估算出來。所謂產(chǎn)生式,是指在句法樹中由父結點推導出子結點的規(guī)則,如圖6中產(chǎn)生式S —NP VP表示結點 S (句子)可推導為NP (名詞短語)和VP (動詞短語);產(chǎn)生式NP — NP PP表示結點NP可推導為NP和PP (介詞短語)。每個自然語句可以有不同的句法樹,每個句法樹的概率都不相同,因此可以選取后驗概率最大的句法樹作為正確結果,即
權利要求
1.一種抽取蛋白質(zhì)相互作用關系的方法,其特征在于,用于在包含兩個蛋白質(zhì)名稱的自然語句中抽取蛋白質(zhì)相互作用關系,所述方法包括對所述自然語句進行句法分析,確定所述自然語句的完全句法樹,在所述完全句法樹中提取所述兩個蛋白質(zhì)名稱之間的最短成分路徑;對所述自然語句進行依存關系分析,確定所述自然語句的依存關系樹,在所述依存關系樹中提取所述兩個蛋白質(zhì)名稱之間的最短依存路徑;根據(jù)所述最短依存路徑擴展所述最短成分路徑,確定擴展后的成分路徑為所述自然語句的關系樹;S利用預存的分類模型對所述關系樹進行二元分類,當Σ Λ.ιΟν^不小于ο時,J=I確定所述關系樹為蛋白質(zhì)相互作用關系,其中,、為分類模型中的支撐向量為分類模型中的支撐向量的權重Λ為分類模型中的支撐向量、的實例,及為分類模型中的支撐向量tj 的標號,Z為所述自然語句的關系樹Λ(\,ζ)為卷積樹核函數(shù)。
2.根據(jù)權利要求1所述的方法,其特征在于,根據(jù)所述最短依存路徑擴展所述最短成分路徑的過程,包括確定所述最短依存路徑中位于兩個所述蛋白質(zhì)名稱所在的詞匯結點之間的詞匯結點為待處理結點組;將所述待處理結點組中的一個詞匯結點作為當前詞匯結點,并將所述當前詞匯結點從待處理結點組中刪除;確定所述當前詞匯結點與其下層詞匯結點之間的依存類型;當所述當前詞匯結點與其下層詞匯結點之間的依存類型為論元類型時,確定所述當前詞匯結點處的結點詞匯,在所述完全句法樹中獲取所述結點詞匯所在結點連接到所述最短成分路徑的擴充路徑,所述擴充路徑的一端為所述結點詞匯所在的結點、另一端為所述最短成分路徑中的一個結點;判斷所述待處理結點組是否為空;當所述待處理結點組不為空時,將所述待處理結點組中的一個詞匯結點作為當前詞匯結點,并將所述當前詞匯結點從所述待處理結點組中刪除,執(zhí)行確定所述當前詞匯結點與其下層詞匯結點之間的依存類型的步驟;當所述待處理結點組為空時,將所述擴充路徑與所述最短成分路徑合并,對所述最短成分路徑進行擴充。
3.根據(jù)權利要求2所述的方法,其特征在于,確定所述當前詞匯結點與其下層詞匯結點之間的依存類型后,還包括當所述當前詞匯結點與其下層詞匯結點之間的依存類型為修飾類型時,確定所述當前詞匯結點處的結點詞匯,在所述完全句法樹中獲取所述結點詞匯所在結點連接到所述最短成分路徑的擴充路徑;判斷所述修飾類型是否為介詞類型;若是,則從所述依存類型中提取出介詞,確定所述介詞為結點詞匯,在所述完全句法樹中獲取所述結點詞匯所在結點連接到所述最短成分路徑的擴充路徑,執(zhí)行判斷所述待處理結點組是否為空的步驟;若否,則執(zhí)行判斷所述待處理結點組是否為空的步驟;所述擴充路徑的一端為所述結點詞匯所在的結點、另一端為所述最短成分路徑中的一個結點。
4.根據(jù)權利要求3所述的方法,其特征在于,確定所述當前詞匯結點與其下層詞匯結點之間的依存類型后,還包括當所述當前詞匯結點與其下層詞匯結點之間的依存類型為論元類型和修飾類型之外的類型時,執(zhí)行判斷所述待處理結點組是否為空的步驟。
5.根據(jù)權利要求4所述的方法,其特征在于,在對所述最短成分路徑進行擴充之后,還包括判斷擴充后的成分路徑中是否包含父結點和子結點均為名詞短語或動詞短語的邊,若包含,則將所述邊中的子結點刪除,將位于所述子結點下層的結點上移至所述子結點所在的結點,執(zhí)行利用預存的分類模型對所述關系樹進行二元分類的步驟,若不包含,執(zhí)行利用預存的分類模型對所述關系樹進行二元分類的步驟。
6.根據(jù)權利要求2、3或4所述的方法,其特征在于確定所述當前詞匯結點與其下層詞匯結點之間的依存類型的過程中,若所述當前詞匯結點為所述最短依存路徑的根節(jié)點, 則確定所述根節(jié)點與位于其下層的任意一個詞匯結點之間的依存類型。
7.根據(jù)權利要求1所述的方法,其特征在于,還包括提取分類模型的步驟。
全文摘要
本發(fā)明公開了一種抽取蛋白質(zhì)相互作用關系的方法,包括對自然語句進行句法分析,確定該自然語句的完全句法樹,在該完全句法樹中提取兩個蛋白質(zhì)名稱之間的最短成分路徑;對自然語句進行依存關系分析,確定該自然語句的依存關系樹,在該依存關系樹中提取兩個蛋白質(zhì)名稱之間的最短依存路徑;根據(jù)最短依存路徑擴展最短成分路徑,確定擴展后的成分路徑為該自然語句的關系樹;利用預存的分類模型對該關系樹進行二元分類。本發(fā)明公開的抽取方法,關系樹中包含了豐富的結構化信息,具有較好的通用性,其精度和召回率得到了提高,總體性能較好,同時減小了系統(tǒng)開銷。
文檔編號G06F19/18GK102339362SQ20111035061
公開日2012年2月1日 申請日期2011年11月8日 優(yōu)先權日2011年11月8日
發(fā)明者周國棟, 李壽山, 錢龍華 申請人:蘇州大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
筠连县| 河北区| 左云县| 花垣县| 余干县| 海安县| 治多县| 紫金县| 务川| 运城市| 油尖旺区| 巴林右旗| 桐柏县| 英超| 石狮市| 屏南县| 河源市| 桃园县| 凉城县| 思茅市| 喜德县| 宜黄县| 龙门县| 临颍县| 乌审旗| 碌曲县| 大安市| 肇源县| 新密市| 绥滨县| 麻阳| 尼勒克县| 郸城县| 高陵县| 崇明县| 梁河县| 司法| 凤凰县| 昌都县| 郧西县| 分宜县|