本發(fā)明涉及圖文標(biāo)注技術(shù)領(lǐng)域,具體地說(shuō),涉及一種圖文知識(shí)點(diǎn)標(biāo)注方法和裝置、圖文標(biāo)注的修正方法和系統(tǒng)。
背景技術(shù):
圖文資料是油氣勘探等專(zhuān)業(yè)領(lǐng)域最基本、最常用的信息載體。在互聯(lián)網(wǎng)迅速普及的今天,圖文資料等信息隨之加速傳播,上述信息量也急劇膨脹。在如此龐大的信息量中,用戶(hù)一般需經(jīng)搜索引擎篩選后獲得所需圖文信息。
現(xiàn)有的搜索引擎普遍采用基于關(guān)鍵詞或全文分詞的索引機(jī)制。該搜索機(jī)制很容易將圖文中出現(xiàn)的詞與真正描述圖文的內(nèi)容混為一談,從而嚴(yán)重影響用戶(hù)檢索的效率。例如,在勘探領(lǐng)域里,專(zhuān)業(yè)人員經(jīng)常需要檢索“地質(zhì)構(gòu)造”或“地質(zhì)構(gòu)造研究”,其真實(shí)檢索意圖是搜索描述這一概念的篇章、段落或圖像,而不需搜索出現(xiàn)了這個(gè)詞的文本單元。但由于某些并無(wú)實(shí)質(zhì)地質(zhì)構(gòu)造研究的篇章或文檔中會(huì)頻繁提到這些詞,導(dǎo)致檢索結(jié)果中會(huì)出現(xiàn)大量的概述及背景介紹類(lèi)的篇章或文檔。而一些反映地質(zhì)構(gòu)造研究具體成果的篇章或圖片,很可能由于基本不出現(xiàn)該詞而根本不出現(xiàn)在搜索結(jié)果中,或在搜索結(jié)果中排序較后。
因此,需要通過(guò)圖文標(biāo)注的方式組織和管理這些信息,方便用戶(hù)獲取所需圖文信息。
在含有大量圖文混合資料的勘探領(lǐng)域內(nèi),目前主流的、效果優(yōu)良的標(biāo)注方法是人工標(biāo)注方法,尤其是對(duì)圖文單元的描述主題的知識(shí)點(diǎn)標(biāo)注方法。雖然采用這一方法可以較為準(zhǔn)確的標(biāo)注圖文資料,但標(biāo)注成本高。因此,該方法難以規(guī)?;瘧?yīng)用于大量圖文資料,尤其是在使用者希望將標(biāo)注細(xì)化到資料內(nèi)部各個(gè)章節(jié)和各幅圖片的情況下。
標(biāo)注缺失會(huì)導(dǎo)致專(zhuān)業(yè)人員使用搜索引擎查詢(xún)資料或分類(lèi)瀏覽時(shí),常常因?yàn)闊o(wú)法準(zhǔn)確定位到某些具有某個(gè)詞語(yǔ)概念含義、但不顯式包含該詞語(yǔ)的內(nèi)容單元而降低查全率;標(biāo)注不精準(zhǔn)則會(huì)導(dǎo)致專(zhuān)業(yè)人員在查詢(xún)?yōu)g覽時(shí),經(jīng)常因受到某段落提及 了某概念詞語(yǔ)、但該段落內(nèi)容卻與此概念詞語(yǔ)相關(guān)性不大的內(nèi)容單元干擾而降低查準(zhǔn)率。
目前常用的、針對(duì)文本的自動(dòng)化標(biāo)注方法,是簡(jiǎn)單的TFIDF的關(guān)鍵詞提取及一些分類(lèi)標(biāo)注方法。這一方法沒(méi)有使用帶有豐富的命名實(shí)體間關(guān)系的知識(shí)圖譜,不能從概念層面準(zhǔn)確標(biāo)注篇章和段落。此外,在實(shí)際操作時(shí),一般的文本分類(lèi)標(biāo)引方法往往要求大量充分的人工標(biāo)注語(yǔ)料,這對(duì)于知識(shí)圖譜中含有上千個(gè)分類(lèi)節(jié)點(diǎn)(對(duì)應(yīng)需要有十萬(wàn)甚至幾十萬(wàn)的標(biāo)注語(yǔ)料)的勘探等專(zhuān)業(yè)領(lǐng)域,同樣也是個(gè)巨大的人工成本。
在勘探等很多專(zhuān)業(yè)領(lǐng)域,人們開(kāi)始利用知識(shí)圖譜來(lái)表示各類(lèi)知識(shí)資源、分析個(gè)人及組織的知識(shí)體系的結(jié)構(gòu)和組成等,但在圖文標(biāo)注技術(shù)中使用知識(shí)圖譜的成熟技術(shù)方案很少?,F(xiàn)有技術(shù)還不具備在復(fù)雜的勘探領(lǐng)域,快速、準(zhǔn)確、全面、低成本地對(duì)海量圖文單元進(jìn)行多維度的標(biāo)注。
因此,亟需一種對(duì)海量圖文資料進(jìn)行多維度標(biāo)注及概括性描述的圖文知識(shí)點(diǎn)標(biāo)注方法、裝置及系統(tǒng)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的技術(shù)問(wèn)題在于克服現(xiàn)有圖文標(biāo)注技術(shù)中并不具備對(duì)海量圖文資料進(jìn)行多維度的標(biāo)注及概括性描述的技術(shù)缺陷。
本發(fā)明的實(shí)施例提供一種圖文知識(shí)點(diǎn)標(biāo)注方法,包括:
構(gòu)建知識(shí)圖譜知識(shí)節(jié)點(diǎn)標(biāo)注模型;
判斷待標(biāo)注圖文單元的類(lèi)型為文本文件或者圖像文件;
根據(jù)待標(biāo)注圖文單元的類(lèi)型提取待標(biāo)注圖文單元中命名實(shí)體的顯性關(guān)鍵特征的預(yù)處理特征,其中,所述預(yù)處理特征用于概括圖文單元的隱含內(nèi)容;
基于所述知識(shí)節(jié)點(diǎn)標(biāo)注模型標(biāo)注圖文單元隱含內(nèi)容主題的知識(shí)點(diǎn)標(biāo)簽。
在一個(gè)實(shí)施例中,在提取待標(biāo)注圖文單元中命名實(shí)體的顯性關(guān)鍵特征的預(yù)處理特征的步驟中,
提取待標(biāo)注圖文單元中顯性提及的命名實(shí)體、命名實(shí)體的屬性描述和命名實(shí)體出現(xiàn)的頻度作為顯性關(guān)鍵特征;
統(tǒng)計(jì)在圖文單元內(nèi)出現(xiàn)的具有相同詞性的分詞的總頻度及不同分詞的數(shù)量,具有相同屬性的命名實(shí)體總頻度及具有不同屬性的命名實(shí)體的數(shù)量作為預(yù)處理 特征,以概括圖文單元的隱含內(nèi)容。
在一個(gè)實(shí)施例中,在提取待標(biāo)注圖文單元中命名實(shí)體的顯性關(guān)鍵特征的預(yù)處理特征的步驟中,
在所述待標(biāo)注圖文單元的類(lèi)型為文本文件的情況下,識(shí)別文本文件中命名實(shí)體的顯性關(guān)鍵特征;
在所述待標(biāo)注圖文單元的類(lèi)型為圖像文件的情況下,基于圖像處理技術(shù)識(shí)別圖像文件文字區(qū)域中的單個(gè)文字,根據(jù)單個(gè)文字的圖像特征識(shí)別由單個(gè)文字組成的文字單元的顯性關(guān)鍵特征。
在一個(gè)實(shí)施例中,在基于所述知識(shí)節(jié)點(diǎn)標(biāo)注模型標(biāo)注圖文單元隱含內(nèi)容主題的知識(shí)點(diǎn)標(biāo)簽的步驟中,
將圖文單元d表示為(W,C),其中,W為命名實(shí)體支撐的矢量空間的詞頻分布矢量,C為命名實(shí)體的概念類(lèi)型或者詞性類(lèi)別支撐的矢量空間的命名實(shí)體概念類(lèi)型或者詞性類(lèi)別的頻度分布矢量;
在設(shè)定的標(biāo)注模型Model(μ)下,計(jì)算圖文單元d對(duì)應(yīng)的知識(shí)點(diǎn)標(biāo)簽T的概率P(T|W,C,μ),其中μ為矢量化的多變量參數(shù);
在概率P(T|W,C,μ)大于預(yù)設(shè)概率閾值的情況下,將圖文單元d標(biāo)注到知識(shí)點(diǎn)標(biāo)簽T上。
在一個(gè)實(shí)施例中,在構(gòu)建知識(shí)圖譜知識(shí)節(jié)點(diǎn)標(biāo)注模型的步驟中包括:
初始化步驟,根據(jù)已知的知識(shí)圖譜和對(duì)應(yīng)于該知識(shí)圖譜上各個(gè)知識(shí)節(jié)點(diǎn)的初始標(biāo)注語(yǔ)料集合,建立初始標(biāo)注模型;
更新步驟,基于半監(jiān)督學(xué)習(xí)算法對(duì)初始標(biāo)注模型進(jìn)行訓(xùn)練來(lái)優(yōu)化標(biāo)注模型Model(μ),從而獲得多變量參數(shù)μ的最優(yōu)估計(jì)值,以使得概率P(T|W,C,μ)與標(biāo)注圖文單元的知識(shí)點(diǎn)標(biāo)簽T的概率期望值最小。
在一個(gè)實(shí)施例中,在基于半監(jiān)督學(xué)習(xí)算法對(duì)初始標(biāo)注模型進(jìn)行訓(xùn)練的步驟中,
基于流形假設(shè)構(gòu)建多維的分詞簇或者命名實(shí)體矢量空間,其包括由具有相同概念類(lèi)型的命名實(shí)體和具有相同詞性的分詞構(gòu)成的子空間;
將系統(tǒng)中的未標(biāo)注語(yǔ)料矢量映射在子空間,得到未標(biāo)注語(yǔ)料矢量在每個(gè)分詞或者命名實(shí)體總詞頻上的映射,以及,在詞性和命名實(shí)體類(lèi)型的頻度及分詞和命名實(shí)體的數(shù)量上的映射;
根據(jù)未標(biāo)注語(yǔ)料矢量與知識(shí)點(diǎn)節(jié)點(diǎn)矢量在子空間上的距離或者相似度的矢量測(cè)度的疊加,調(diào)整未標(biāo)注語(yǔ)料的預(yù)處理特征對(duì)標(biāo)注模型的貢獻(xiàn)的權(quán)重值,從而使得標(biāo)注模型概括未標(biāo)注語(yǔ)料的隱含內(nèi)容。
根據(jù)本發(fā)明的另一方面,還提供一種圖文標(biāo)注的修正方法,包括:
如上文所述的圖文知識(shí)點(diǎn)標(biāo)注方法,以及,
基于圖文單元中的顯性關(guān)鍵特征和知識(shí)點(diǎn)標(biāo)簽構(gòu)建索引庫(kù),按照顯性關(guān)鍵特征和/或知識(shí)點(diǎn)標(biāo)簽對(duì)圖文單元進(jìn)行分類(lèi)展示或者檢索,對(duì)圖文單元的知識(shí)點(diǎn)標(biāo)簽進(jìn)行修正;
根據(jù)修正后的知識(shí)點(diǎn)標(biāo)簽更新標(biāo)注語(yǔ)料庫(kù)。
根據(jù)本發(fā)明的另一方面,還提供一種圖文知識(shí)點(diǎn)標(biāo)注裝置,包括:
模型構(gòu)建單元,其設(shè)置為構(gòu)建知識(shí)圖譜知識(shí)節(jié)點(diǎn)標(biāo)注模型;
類(lèi)型判斷單元,其設(shè)置為判斷待標(biāo)注圖文單元的類(lèi)型為文本文件或者圖像文件;
特征提取單元,其設(shè)置為根據(jù)待標(biāo)注圖文單元的類(lèi)型提取待標(biāo)注圖文單元中命名實(shí)體的顯性關(guān)鍵特征的預(yù)處理特征,其中,所述預(yù)處理特征用于概括圖文單元的隱含內(nèi)容;
多維標(biāo)注單元,其設(shè)置為基于所述知識(shí)節(jié)點(diǎn)標(biāo)注模型標(biāo)注圖文單元隱含內(nèi)容主題的知識(shí)點(diǎn)標(biāo)簽。
在一個(gè)實(shí)施例中,所述特征提取單元包括:
顯性特征提取模塊,其設(shè)置為提取待標(biāo)注圖文單元中顯性提及的命名實(shí)體、命名實(shí)體的屬性描述和命名實(shí)體出現(xiàn)的頻度作為顯性關(guān)鍵特征;
預(yù)處理特征提取模塊,其設(shè)置為統(tǒng)計(jì)在圖文單元內(nèi)出現(xiàn)的具有相同詞性的分詞的總頻度及不同分詞的數(shù)量,具有相同屬性類(lèi)型的命名實(shí)體總頻度及具有不同屬性的命名實(shí)體的數(shù)量作為預(yù)處理特征,以概括圖文單元的隱含內(nèi)容。
根據(jù)本發(fā)明的另一方面,還提供一種圖文標(biāo)注的修正系統(tǒng),包括:
如上文所述的圖文知識(shí)點(diǎn)標(biāo)注裝置,以及,
跨圖文知識(shí)圖譜應(yīng)用平臺(tái),其包括索引單元和修正單元,其中,所述索引單元設(shè)置為基于圖文單元中的顯性關(guān)鍵特征和知識(shí)點(diǎn)標(biāo)簽構(gòu)建索引庫(kù),按照顯性關(guān)鍵特征和/或知識(shí)點(diǎn)標(biāo)簽對(duì)圖文單元進(jìn)行分類(lèi)展示或者檢索,所述修正單元設(shè)置為對(duì)圖文單元的知識(shí)點(diǎn)標(biāo)簽進(jìn)行修正;
語(yǔ)料庫(kù)更新單元,其設(shè)置為根據(jù)修正后的知識(shí)點(diǎn)標(biāo)簽更新標(biāo)注語(yǔ)料庫(kù)。
本發(fā)明的實(shí)施例在大幅降低人工訓(xùn)練成本的基礎(chǔ)上,利用計(jì)算機(jī)在細(xì)顆粒度上對(duì)圖文資料所涉及的概念類(lèi)命名實(shí)體及對(duì)象實(shí)例命名實(shí)體進(jìn)行提取,并將提取的特征輸入到知識(shí)圖譜概率標(biāo)注模型中計(jì)算,得出概括該圖文單內(nèi)容的多維的主題知識(shí)點(diǎn)標(biāo)注。基于這樣的標(biāo)注系統(tǒng)建立的查詢(xún)及分類(lèi)瀏覽系統(tǒng)將可以顯著提升使用者的查詢(xún)效率。
另一方面,在某些極端情況下,例如圖文單元中未提及某地質(zhì)研究概念詞,但是其中提及的各個(gè)命名實(shí)體及各種詞隱含為該地質(zhì)研究概念涵蓋的具體內(nèi)容時(shí),傳統(tǒng)的檢索往往會(huì)丟失該內(nèi)容,而本發(fā)明的實(shí)施例仍可將該圖文單元標(biāo)注為該地質(zhì)概念。
此外,本發(fā)明的實(shí)施例還使用戶(hù)在基于知識(shí)圖譜的標(biāo)注查閱資料的同時(shí),提供對(duì)所查閱的資料的知識(shí)圖譜標(biāo)注進(jìn)行補(bǔ)充及修正的功能,從而讓知識(shí)圖譜及其語(yǔ)義標(biāo)注系統(tǒng)可以不斷進(jìn)化,從而持續(xù)提升用戶(hù)的檢索及分類(lèi)瀏覽的體驗(yàn)。
本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述,并且,部分地從說(shuō)明書(shū)中變得顯而易見(jiàn),或者通過(guò)實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過(guò)在說(shuō)明書(shū)、權(quán)利要求書(shū)以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。
附圖說(shuō)明
附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,并且構(gòu)成說(shuō)明書(shū)的一部分,與本發(fā)明的實(shí)施例共同用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的限制。在附圖中:
圖1是根據(jù)本發(fā)明實(shí)施例一的圖文知識(shí)點(diǎn)標(biāo)注方法的步驟流程圖;
圖2是根據(jù)本發(fā)明實(shí)施例一的圖文知識(shí)點(diǎn)標(biāo)注裝置的結(jié)構(gòu)示意圖;
圖3是根據(jù)本發(fā)明實(shí)施例二的修正圖文標(biāo)注的方法的步驟流程圖;
圖4是根據(jù)本發(fā)明實(shí)施例二的修正圖文標(biāo)注的系統(tǒng)的結(jié)構(gòu)示意圖;
圖5是根據(jù)本發(fā)明實(shí)施例三的修正圖文標(biāo)注的系統(tǒng)的結(jié)構(gòu)示意圖;
圖6是在具體示例中油氣勘探領(lǐng)域的知識(shí)圖譜的局部結(jié)構(gòu)示意圖;
圖7是在具體示例中油氣勘探領(lǐng)域的一個(gè)文本段落的示意圖;
圖8是在具體示例中油氣勘探領(lǐng)域的一個(gè)圖像的示意圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,以下結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步地詳細(xì)說(shuō)明。
勘探等專(zhuān)業(yè)領(lǐng)域的知識(shí)是一個(gè)涉及多種學(xué)科、多種技術(shù)、多種形式的復(fù)雜體系,知識(shí)圖譜也較為復(fù)雜,涉及很多不同類(lèi)型的概念類(lèi)和大量的對(duì)象實(shí)例,相互間也有各種不同形式的關(guān)聯(lián)關(guān)系,表達(dá)上具有多維度、多層次的特點(diǎn)。
而現(xiàn)有的圖文標(biāo)注技術(shù)大多數(shù)在一定程度上解決文本結(jié)構(gòu)化或圖像內(nèi)文字提取的問(wèn)題。但是都不具備在復(fù)雜的勘探業(yè)務(wù)領(lǐng)域,低成本對(duì)海量圖文單元進(jìn)行多維度的標(biāo)注及概括性描述,且能持續(xù)提升標(biāo)注準(zhǔn)確性及檢索的用戶(hù)體驗(yàn)的能力。
本發(fā)明實(shí)施例所提供的圖文知識(shí)點(diǎn)標(biāo)注方法,是基于在本體論(Ontology)基礎(chǔ)上的勘探等領(lǐng)域的知識(shí)圖譜建立的。結(jié)合專(zhuān)業(yè)領(lǐng)域知識(shí)圖譜對(duì)圖文單元的內(nèi)容進(jìn)行標(biāo)引,并概括性描述圖文單元的主題。具體而言,專(zhuān)業(yè)領(lǐng)域的Ontology就是在建立一套勘探領(lǐng)域的多層級(jí)的概念(類(lèi))體系的歸屬,并建立每個(gè)層級(jí)下的歸屬于該抽象類(lèi)的個(gè)體(實(shí)例),以及在此基礎(chǔ)上建立類(lèi)及個(gè)體的屬性描述(它們所可能具有的屬性、特征、特性、特點(diǎn)和參數(shù))及某種關(guān)聯(lián)關(guān)系。最終,專(zhuān)業(yè)領(lǐng)域的知識(shí)圖譜建立的是一整套的類(lèi)間、個(gè)體對(duì)象間、以及類(lèi)與個(gè)體對(duì)象間的關(guān)系。
在基于Ontology的知識(shí)圖譜的建立中,通常以命名實(shí)體(Named Entity)統(tǒng)一表述個(gè)體(對(duì)象實(shí)例)及其對(duì)象類(lèi)型(抽象出的概念類(lèi))。通過(guò)對(duì)命名實(shí)體的識(shí)別、命名實(shí)體的屬性和命名實(shí)體間關(guān)聯(lián)關(guān)系的發(fā)現(xiàn),建立及更新知識(shí)圖譜。前述命名實(shí)體,是指人名、機(jī)構(gòu)名、地名以及其他所有以名稱(chēng)為標(biāo)識(shí)的實(shí)體。本發(fā)明的實(shí)施例可用于地理、醫(yī)學(xué)等專(zhuān)業(yè)領(lǐng)域,以下僅以勘探領(lǐng)域?yàn)槔M(jìn)行闡述。在勘探領(lǐng)域內(nèi),重要的命名實(shí)體的類(lèi)型包括:地質(zhì)年代、盆地、井、構(gòu)造單元、研究方法等等以名稱(chēng)為標(biāo)識(shí)的實(shí)體。
實(shí)施例一
圖1是本發(fā)明實(shí)施例提供的一種圖文知識(shí)點(diǎn)標(biāo)注方法的步驟流程圖。首先構(gòu)建知識(shí)圖譜知識(shí)節(jié)點(diǎn)標(biāo)注模型(步驟S110)。具體來(lái)說(shuō),包括初始化步驟和更新步驟。其中,在初始化步驟中根據(jù)已知的知識(shí)圖譜和對(duì)應(yīng)于該知識(shí)圖譜上各個(gè)知識(shí)節(jié)點(diǎn)的初始標(biāo)注語(yǔ)料集合,建立初始標(biāo)注模型,在更新步驟中,基于半監(jiān)督學(xué)習(xí)(Semi-supervised Learning)算法對(duì)初始標(biāo)注模型進(jìn)行訓(xùn)練來(lái)優(yōu)化標(biāo)注模型。 詳細(xì)的優(yōu)化過(guò)程在下文的具體示例中進(jìn)行描述。
該方法還包括判斷待標(biāo)注圖文單元的類(lèi)型為文本文件或者圖像文件(步驟S120),以及提取待標(biāo)注圖文單元中命名實(shí)體的顯性關(guān)鍵特征的預(yù)處理特征(步驟S130)。在步驟S130中,提取待標(biāo)注圖文單元中顯性提及的命名實(shí)體、命名實(shí)體的屬性描述和命名實(shí)體出現(xiàn)的頻度作為顯性關(guān)鍵特征,統(tǒng)計(jì)在圖文單元內(nèi)出現(xiàn)的具有相同詞性的分詞的總頻度及不同分詞的數(shù)量,以及具有相同類(lèi)型的命名實(shí)體總頻度及不同的命名實(shí)體的數(shù)量作為預(yù)處理特征,以概括圖文單元的隱含內(nèi)容。
具體而言,在所述待標(biāo)注圖文單元的類(lèi)型為文本文件的情況下,識(shí)別文本文件中命名實(shí)體的顯性關(guān)鍵特征;在所述待標(biāo)注圖文單元的類(lèi)型為圖像文件的情況下,基于圖像處理技術(shù)識(shí)別圖像文件文字區(qū)域中的單個(gè)文字,根據(jù)單個(gè)文字的圖像特征識(shí)別由單個(gè)文字組成的文字單元的顯性關(guān)鍵特征。
隨后,基于所述知識(shí)節(jié)點(diǎn)標(biāo)注模型標(biāo)注圖文單元隱含內(nèi)容主題的知識(shí)點(diǎn)標(biāo)簽(步驟S140)。
本實(shí)施例提供的圖文知識(shí)點(diǎn)標(biāo)注方法可以對(duì)圖文資料所涉及的概念類(lèi)命名實(shí)體及對(duì)象實(shí)例命名實(shí)體進(jìn)行提取,并將提取的特征輸入到知識(shí)圖譜概率標(biāo)注模型中計(jì)算,得出概括該圖文單內(nèi)容的多維的主題知識(shí)點(diǎn)標(biāo)注。
在某些極端情況下,例如圖文單元中未提及某地質(zhì)研究概念詞,但是其中提及的各個(gè)命名實(shí)體及各種詞隱含為該地質(zhì)研究概念涵蓋的具體內(nèi)容時(shí),本實(shí)施例仍可將該圖文單元標(biāo)注為該地質(zhì)概念。
圖2是本發(fā)明實(shí)施例提供的一種圖文知識(shí)點(diǎn)標(biāo)注裝置200的結(jié)構(gòu)示意圖。該裝置包括模型構(gòu)建單元210、判斷單元220、特征提取單元230和多維標(biāo)注單元240。其中,模型構(gòu)建單元210設(shè)置為構(gòu)建知識(shí)圖譜知識(shí)節(jié)點(diǎn)標(biāo)注模型。模型建立單元210包括初始化模塊211和更新模塊212,初始化模塊211設(shè)置為根據(jù)已知的知識(shí)圖譜和對(duì)應(yīng)于該知識(shí)圖譜上各個(gè)知識(shí)節(jié)點(diǎn)的初始標(biāo)注語(yǔ)料集合,建立初始標(biāo)注模型,更新模塊212設(shè)置為基于半監(jiān)督學(xué)習(xí)算法對(duì)初始標(biāo)注模型進(jìn)行訓(xùn)練來(lái)優(yōu)化標(biāo)注模型。
判斷單元220設(shè)置為判斷待標(biāo)注圖文單元的類(lèi)型為文本文件或者圖像文件。
特征提取單元230設(shè)置為根據(jù)待標(biāo)注圖文單元的類(lèi)型提取待標(biāo)注圖文單元中命名實(shí)體的顯性關(guān)鍵特征的預(yù)處理特征,具體而言,特征提取單元230包括有顯 性特征提取模塊和預(yù)處理特征提取模塊(圖2中未示出)。顯性特征提取模塊用于提取待標(biāo)注圖文單元中顯性提及的命名實(shí)體、命名實(shí)體的屬性描述和命名實(shí)體出現(xiàn)的頻度作為顯性關(guān)鍵特征。預(yù)處理特征提取模塊用于統(tǒng)計(jì)在圖文單元內(nèi)出現(xiàn)的具有相同詞性的分詞的總頻度及不同分詞的數(shù)量,以及具有相同類(lèi)型的命名實(shí)體總頻度及不同的命名實(shí)體的數(shù)量作為預(yù)處理特征,以概括圖文單元的隱含內(nèi)容。
多維標(biāo)注單元240設(shè)置為基于所述知識(shí)節(jié)點(diǎn)標(biāo)注模型標(biāo)注圖文單元隱含內(nèi)容主題的知識(shí)點(diǎn)標(biāo)簽。
實(shí)施例二
圖3是本發(fā)明實(shí)施例提供的一種修正圖文標(biāo)注的方法的步驟流程圖。其中,與圖1相同的步驟采用同樣的附圖標(biāo)記表示。與圖1不同的是,圖3還包括基于圖文單元中的顯性關(guān)鍵特征和知識(shí)點(diǎn)標(biāo)簽構(gòu)建索引庫(kù),按照顯性關(guān)鍵特征和/或知識(shí)點(diǎn)標(biāo)簽對(duì)圖文單元進(jìn)行分類(lèi)展示或者檢索,對(duì)圖文單元的知識(shí)點(diǎn)標(biāo)簽進(jìn)行修正(步驟S150),根據(jù)修正后的知識(shí)點(diǎn)標(biāo)簽更新標(biāo)注語(yǔ)料庫(kù)(步驟S160),隨后根據(jù)標(biāo)注語(yǔ)料庫(kù)更新知識(shí)圖譜知識(shí)節(jié)點(diǎn)標(biāo)注模型。
本實(shí)施例在用戶(hù)使用基于知識(shí)圖譜的標(biāo)注查閱資料的同時(shí),提供對(duì)所查閱的資料的知識(shí)圖譜標(biāo)注進(jìn)行補(bǔ)充及修正的功能,從而讓知識(shí)圖譜及其語(yǔ)義標(biāo)注系統(tǒng)可以不斷進(jìn)化,從而持續(xù)提升用戶(hù)的檢索及分類(lèi)瀏覽的體驗(yàn)。
圖4是本發(fā)明實(shí)施例提供的一種修正圖文標(biāo)注系統(tǒng)的結(jié)構(gòu)示意圖。該系統(tǒng)包括圖文知識(shí)點(diǎn)標(biāo)注裝置200、跨圖文知識(shí)圖譜應(yīng)用平臺(tái)300和語(yǔ)料庫(kù)更新單元400。
跨圖文知識(shí)圖譜應(yīng)用平臺(tái)300包括索引單元310和修正單元320,其中,所述索引單元310設(shè)置為基于圖文單元中的顯性關(guān)鍵特征和知識(shí)點(diǎn)標(biāo)簽構(gòu)建索引庫(kù),按照顯性關(guān)鍵特征和/或知識(shí)點(diǎn)標(biāo)簽對(duì)圖文單元進(jìn)行分類(lèi)展示或者檢索,所述修正單元320設(shè)置為對(duì)圖文單元的知識(shí)點(diǎn)標(biāo)簽進(jìn)行修正。
語(yǔ)料庫(kù)更新單元400設(shè)置為根據(jù)修正后的知識(shí)點(diǎn)標(biāo)簽更新標(biāo)注語(yǔ)料庫(kù),更新模塊212根據(jù)標(biāo)注語(yǔ)料庫(kù)更新知識(shí)圖譜知識(shí)節(jié)點(diǎn)標(biāo)注模型。
實(shí)施例三
本實(shí)施例提供一種用于油氣勘探領(lǐng)域的修正圖文標(biāo)注的系統(tǒng),如圖5所示。該系統(tǒng)包括圖文知識(shí)點(diǎn)標(biāo)注裝置、跨圖文知識(shí)圖譜應(yīng)用平臺(tái)和語(yǔ)料庫(kù)更新單元。
其中,圖文知識(shí)點(diǎn)標(biāo)注裝置用于對(duì)單一圖文單元進(jìn)行知識(shí)點(diǎn)標(biāo)簽的多維標(biāo)注。在本實(shí)施例中,圖文知識(shí)點(diǎn)標(biāo)注裝置包括模型構(gòu)建單元、類(lèi)型判斷單元(圖5中未示出),以及單一文本單元內(nèi)知識(shí)點(diǎn)多維標(biāo)注子單元和單一圖像內(nèi)知識(shí)點(diǎn)多維標(biāo)注子單元。
其中,模型構(gòu)建單元用于構(gòu)建知識(shí)圖譜知識(shí)節(jié)點(diǎn)標(biāo)注模型并進(jìn)行更新,類(lèi)型判斷單元用于判斷待標(biāo)注圖文單元的類(lèi)型為文本文件或者圖像文件。
所述單一文本單元內(nèi)知識(shí)點(diǎn)多維標(biāo)注子單元包含兩個(gè)連續(xù)作用的模塊:?jiǎn)我晃谋締卧獌?nèi)關(guān)鍵特征提取模塊和單一文本單元內(nèi)知識(shí)點(diǎn)標(biāo)注模塊。
單一文本內(nèi)單元內(nèi)關(guān)鍵特征提取模塊用于提取出單一文本中顯性提及的關(guān)鍵特征,主要為命名實(shí)體(地質(zhì)年代、儲(chǔ)層、構(gòu)造單元等的全稱(chēng)或簡(jiǎn)稱(chēng))及對(duì)命名實(shí)體的一些屬性描述詞語(yǔ)(例如反映巖厚度、地質(zhì)構(gòu)造單元距離、地質(zhì)構(gòu)造單元走向的形容詞)及其出現(xiàn)頻度,并在此基礎(chǔ)上加入一些關(guān)于實(shí)體及描述詞語(yǔ)類(lèi)型的統(tǒng)計(jì)分布的更具抽象性的預(yù)處理特征。
所述單一文本單元內(nèi)的知識(shí)點(diǎn)標(biāo)注模塊,在關(guān)鍵特征提取基礎(chǔ)上,采用基于規(guī)則的分類(lèi)算法或者統(tǒng)計(jì)分類(lèi)算法,來(lái)計(jì)算出可以真實(shí)概述該文本單元(但是未必出現(xiàn)在該文本單元的內(nèi)容中)的內(nèi)容主題的知識(shí)圖譜上的知識(shí)點(diǎn)標(biāo)簽。概括地說(shuō),這一模塊是一個(gè)基于知識(shí)圖譜的具有層級(jí)關(guān)系的概率模型,在此模型上輸入文本單元提取的特征,計(jì)算出對(duì)應(yīng)概率較大的知識(shí)圖譜上的知識(shí)節(jié)點(diǎn)。該概率模型的建立及更新,將在模型建立單元中進(jìn)行描述。
所述單一圖像內(nèi)知識(shí)點(diǎn)多維標(biāo)注子單元包含兩個(gè)連續(xù)作用的模塊:?jiǎn)我粓D像內(nèi)關(guān)鍵特征提取模塊、單一圖像內(nèi)知識(shí)點(diǎn)標(biāo)注模塊。
單一圖像內(nèi)關(guān)鍵特征提取模塊,主要是通過(guò)圖像處理及文本關(guān)鍵詞及命名實(shí)體提取技術(shù),提取出單一圖像內(nèi)的文字展示內(nèi)容中顯性提及的關(guān)鍵特征,單一文本內(nèi)單元內(nèi)關(guān)鍵特征提取模塊提取的特征相似。
所述單一圖像內(nèi)的知識(shí)點(diǎn)標(biāo)注模塊,在單一圖像的關(guān)鍵特征提取基礎(chǔ)上,采用與單一文本單元內(nèi)的知識(shí)點(diǎn)標(biāo)注模塊基本一樣的操作方法,計(jì)算出可以真實(shí)概述該圖像的主題標(biāo)簽。
再次回到圖5,所述跨圖文知識(shí)圖譜應(yīng)用平臺(tái)主要是基于對(duì)文本單元及圖像的關(guān)鍵特征提取及知識(shí)點(diǎn)標(biāo)注,建立一個(gè)包含關(guān)鍵詞及命名實(shí)體索引、以及主題知識(shí)點(diǎn)標(biāo)簽索引的索引庫(kù),并基于此索引庫(kù),向用戶(hù)提供分類(lèi)瀏覽及關(guān)鍵詞檢索 的服務(wù)。
其中,所述分類(lèi)瀏覽模塊提供瀏覽功能。根據(jù)用戶(hù)對(duì)概念導(dǎo)航頁(yè)中不同的概念標(biāo)簽的操作指令,系統(tǒng)彈出對(duì)應(yīng)標(biāo)簽結(jié)果頁(yè),按某種排序標(biāo)準(zhǔn),排列出各種各樣的文本單元的摘要(含全文鏈接)及圖像縮略圖(含原圖鏈接)。
所述關(guān)鍵詞檢索模塊提供檢索功能。接收用戶(hù)輸入的檢索關(guān)鍵詞,系統(tǒng)對(duì)應(yīng)提供與查詢(xún)內(nèi)容相關(guān)的按照關(guān)聯(lián)度排序的文本單元的摘要(含全文鏈接)及圖像縮略圖(含原圖鏈接)的結(jié)果列表。其中,關(guān)聯(lián)度計(jì)算優(yōu)先考慮概括文本單元或圖像內(nèi)容語(yǔ)義的主題知識(shí)點(diǎn)標(biāo)簽,其次是文本顯性提及的關(guān)鍵詞或命名實(shí)體。
本實(shí)施例中跨圖文知識(shí)圖譜應(yīng)用平臺(tái)中包括修正單元,優(yōu)選的,該修正單元在檢索或是分類(lèi)瀏覽的結(jié)果列表頁(yè)中采用特別的用戶(hù)互動(dòng)與糾錯(cuò)界面實(shí)現(xiàn)。其特點(diǎn)是列表里的每個(gè)結(jié)果項(xiàng)的展示空間里,均附加一個(gè)允許用戶(hù)修正其類(lèi)別標(biāo)簽的按鈕及相應(yīng)的修改界面。這些語(yǔ)料及用戶(hù)的修正動(dòng)作,將會(huì)通過(guò)語(yǔ)料庫(kù)更新單元存儲(chǔ)于標(biāo)注語(yǔ)料庫(kù)中。
在一個(gè)優(yōu)選的示例中,語(yǔ)料庫(kù)更新單元結(jié)合用戶(hù)的專(zhuān)業(yè)性及權(quán)威度對(duì)用戶(hù)的每個(gè)修正標(biāo)簽加權(quán),最后選出分?jǐn)?shù)超出閾值的標(biāo)簽賦予該語(yǔ)料,并更新標(biāo)注語(yǔ)料庫(kù)。
模型構(gòu)建單元基于標(biāo)注語(yǔ)料庫(kù)的標(biāo)注語(yǔ)料,建立及持續(xù)更新知識(shí)圖譜節(jié)點(diǎn)標(biāo)注模型,主要是概念標(biāo)注模型。這一單元在實(shí)際運(yùn)作中,按階段分為兩個(gè)部分,一個(gè)是知識(shí)圖譜模型建立(初始化步驟),一個(gè)是知識(shí)圖譜模型更新(更新步驟)。本實(shí)施例的主要優(yōu)勢(shì)之一,是采用半監(jiān)督學(xué)習(xí)算法,對(duì)特征的矢量空間表達(dá)做了改造,從而在初始化-冷啟動(dòng)階段,可以節(jié)省大量人工,訓(xùn)練得出較為有效的分類(lèi)器進(jìn)行概念標(biāo)注,并在隨后的運(yùn)營(yíng)中,充分利用跨圖文知識(shí)圖譜應(yīng)用平臺(tái)持續(xù)提供的語(yǔ)料標(biāo)注,不斷優(yōu)化模型,提高標(biāo)注的效果。
以下對(duì)圖5中模型構(gòu)建單元的具體作用進(jìn)行詳細(xì)描述。
模型構(gòu)建單元在初始化過(guò)程中,根據(jù)已知的知識(shí)圖譜和對(duì)應(yīng)于該知識(shí)圖譜上各個(gè)知識(shí)節(jié)點(diǎn)的初始標(biāo)注語(yǔ)料集合,建立初始標(biāo)注模型。例如,基于一個(gè)勘探等專(zhuān)業(yè)領(lǐng)域知識(shí)圖譜,即該領(lǐng)域內(nèi)關(guān)于不同概念類(lèi)及具體實(shí)例的命名實(shí)體間的隸屬關(guān)系、屬性、關(guān)聯(lián)關(guān)系的一個(gè)多維、多層級(jí)的結(jié)構(gòu)關(guān)系圖,以及一個(gè)對(duì)應(yīng)于該圖譜上各個(gè)知識(shí)節(jié)點(diǎn)的較小集合的標(biāo)注語(yǔ)料,初始化建立一個(gè)對(duì)文本內(nèi)容的知識(shí)圖譜知識(shí)節(jié)點(diǎn)標(biāo)注模型。具體而言,基于機(jī)器學(xué)習(xí)中的半監(jiān)督學(xué)習(xí)算法,具體實(shí)施 采用了EM(Expectation-Maximization)期望值最小算法,從而保證了初始化階段使用較小量的語(yǔ)料依然可以達(dá)成較優(yōu)的標(biāo)注效果。
在更新過(guò)程中,基于標(biāo)注語(yǔ)料庫(kù)中不斷豐富的標(biāo)注語(yǔ)料,持續(xù)更新知識(shí)圖譜知識(shí)節(jié)點(diǎn)標(biāo)注模型,保證系統(tǒng)在實(shí)際運(yùn)行時(shí)可以低成本地不斷獲得用戶(hù)的反饋及修正,從而不斷提升模型的標(biāo)注效果,及用戶(hù)的使用體驗(yàn)。
具體示例
本部分提供利用修正圖文標(biāo)注的系統(tǒng)對(duì)油氣勘探領(lǐng)域圖文資料的具體示例進(jìn)行標(biāo)注的實(shí)施過(guò)程。
參照?qǐng)D5,單一文本內(nèi)單元關(guān)鍵特征提取模塊主要作用為提取出單一文本中顯性提及的關(guān)鍵特征,主要為命名實(shí)體(地質(zhì)年代、儲(chǔ)層、構(gòu)造單元等的全稱(chēng)或簡(jiǎn)稱(chēng))及對(duì)命名實(shí)體的一些屬性描述詞語(yǔ)(例如反映巖及對(duì)命名實(shí)體的一些屬性描述詞語(yǔ)層的厚度、地質(zhì)構(gòu)造單元距離、地質(zhì)構(gòu)造單元走向的形容詞)及出現(xiàn)頻度,并在此基礎(chǔ)上加入某些預(yù)處理特征。
整體方法是,基于已有的知識(shí)圖譜,及勘探等領(lǐng)域的專(zhuān)業(yè)詞典(其中包含了描述對(duì)象實(shí)例或概念類(lèi)的命名實(shí)體的專(zhuān)業(yè)詞匯及對(duì)應(yīng)的命名實(shí)體類(lèi)型。例如:寒武紀(jì)、奧陶紀(jì)等詞語(yǔ)的實(shí)體類(lèi)型為地質(zhì)年代),通過(guò)隱馬爾可夫模型方法或條件隨機(jī)場(chǎng)方法,提取文本單元中出現(xiàn)的單詞,包括分詞及詞性識(shí)別結(jié)果、命名實(shí)體及所屬類(lèi)型識(shí)別結(jié)果、新詞識(shí)別結(jié)果、屬性關(guān)系識(shí)別結(jié)果,并摒除各類(lèi)可以認(rèn)定對(duì)知識(shí)點(diǎn)標(biāo)注無(wú)意義的停止詞(例如:你、我、他、的、地、得等),進(jìn)行計(jì)算抽取出該句子及段落所顯性涉及的命名實(shí)體-包括概念類(lèi)及對(duì)象實(shí)例,以及對(duì)命名實(shí)體的一些屬性描述詞語(yǔ)。
在上述詞語(yǔ)及命名實(shí)體識(shí)別的基礎(chǔ)上,進(jìn)行預(yù)處理,獲得部分增強(qiáng)的預(yù)處理特征,將這些預(yù)處理特征加入后續(xù)的知識(shí)點(diǎn)標(biāo)注模塊的輸入中。具體實(shí)施中,下述預(yù)處理特征集合對(duì)后續(xù)的概括性知識(shí)點(diǎn)標(biāo)注具有較為顯著的意義:在文本單元內(nèi)出現(xiàn)的某詞性的總詞頻及不同詞的個(gè)數(shù)、在文本單元內(nèi)出現(xiàn)的某類(lèi)型的命名實(shí)體總頻度及不同的實(shí)體個(gè)數(shù)。
之所以增加預(yù)處理特征集的具體原因是這類(lèi)特征往往是概括性的特征,在很多情況下,可能比基礎(chǔ)的具體的對(duì)象實(shí)例,更能決定該文本單元的某些概念性的類(lèi)別屬性。比如,決定某文本單元是否屬于“地質(zhì)構(gòu)造單元研究”這一類(lèi)別,往往取決于該單元內(nèi)是否出現(xiàn)了很多具體的地質(zhì)構(gòu)造單元實(shí)例,而非“地質(zhì)構(gòu)造單 元”這個(gè)詞的出現(xiàn)次數(shù),或某些具體的地質(zhì)構(gòu)造單元的出現(xiàn)次數(shù)。當(dāng)然,有時(shí)某些具體的子類(lèi)別,又往往取決于某些具體的實(shí)例對(duì)象的出現(xiàn)與否。針對(duì)這種較為復(fù)雜的分類(lèi)情況,我們選擇將原始提取的命名實(shí)體及關(guān)鍵詞,以及預(yù)處理后特征,統(tǒng)一按照TFIDF等方法處理,提取出在本單元出現(xiàn)頻率統(tǒng)計(jì)上突出于背景(全部文本單元)的頻率的特征集合,將其作為該文本單元的語(yǔ)義特征。
在圖5中單一文本單元內(nèi)的知識(shí)點(diǎn)標(biāo)注模塊在顯性關(guān)鍵特征提取基礎(chǔ)上,采用基于規(guī)則的分類(lèi)算法或者統(tǒng)計(jì)分類(lèi)算法,來(lái)計(jì)算出可以真實(shí)概述該文本單元(但是未必出現(xiàn)在該文本單元的內(nèi)容里的)的內(nèi)容主題的知識(shí)點(diǎn)分類(lèi)標(biāo)簽。這一模塊的應(yīng)用基礎(chǔ)為預(yù)先有一個(gè)相對(duì)完備的知識(shí)圖譜的知識(shí)點(diǎn)分類(lèi)模型。
當(dāng)各個(gè)知識(shí)節(jié)點(diǎn)有明確的規(guī)則模型定義時(shí),可以使用基于規(guī)則的分類(lèi)算法進(jìn)行一系列規(guī)則檢驗(yàn)的工作,該方法較易實(shí)現(xiàn)但是普適性比較差。或者,當(dāng)對(duì)應(yīng)于各個(gè)知識(shí)節(jié)點(diǎn)有一批標(biāo)好類(lèi)別的語(yǔ)料時(shí),可以采用統(tǒng)計(jì)分類(lèi)算法如Classification and Regression Tree、Chaid,SVM,Bayesian Net、EM/HEM、Logistic Regression Model。這些方法的普適性較好,但是要求有較多的標(biāo)注好知識(shí)點(diǎn)的文本單元(稱(chēng)為標(biāo)注語(yǔ)料)。關(guān)于這些統(tǒng)計(jì)分類(lèi)算法的描述,可參考Geoffrey McLachlan專(zhuān)著的Discriminant Analysis and Statistical Pattern Recognition(John Wiley and Sons于2004年出版)。
在模型正確建立的基礎(chǔ)上,直接輸入文本單元關(guān)鍵特征模塊提取的特征,就可以獲得對(duì)文本單元的知識(shí)點(diǎn)的標(biāo)注。
本發(fā)明實(shí)施例中,定義在某標(biāo)注模型Model(μ)下,文本d產(chǎn)生概念標(biāo)簽為T(mén)的概率為P(T|d,μ);其中μ為一個(gè)矢量化的多變量參數(shù),以高斯分布的概率模型為例,μ由中心值(mean)及標(biāo)準(zhǔn)偏差(standard deviation)構(gòu)成。在本一個(gè)優(yōu)選的示例中,建議采用Mixture of Gaussian模型。
在獨(dú)立性假設(shè)下,文本單元的特征表達(dá)是通過(guò)單個(gè)的詞或命名實(shí)體的矢量表示的。在獨(dú)立性假設(shè)失效情況下,則考慮N-gram,同時(shí)考慮某些詞共現(xiàn)的高相關(guān)性,采用LSI等降維手段??傊?,文本單元的有效表達(dá)方式,仍是基于詞或詞組的矢量表達(dá)。
基于這一假設(shè),在常用的詞簇描述方式中,文本單元表示為文本的關(guān)鍵詞或全部分詞的詞頻,所以可以轉(zhuǎn)換為P(T|W,μ),W為詞支撐的矢量空間的詞頻分布矢量。但在本發(fā)明的文本單元描述方式中,文本d被表達(dá)為(W,C),其中W為 具體的關(guān)鍵詞或命名實(shí)體支撐的矢量空間的詞頻分布矢量,而C為命名實(shí)體概念類(lèi)或詞性類(lèi)別支撐的矢量空間的詞性類(lèi)別及命名實(shí)體類(lèi)別頻度分布矢量,所以轉(zhuǎn)換為P(T|W,μ)。
當(dāng)μ確定時(shí),文本單元的從屬于對(duì)應(yīng)各個(gè)知識(shí)點(diǎn)的概率可以被計(jì)算出,因而基于概率是否過(guò)閾值(如0.9)或概率排序,就可以給文本單元賦予一個(gè)或幾個(gè)概念標(biāo)簽。
然而實(shí)際情況是系統(tǒng)在初始化之前μ未知,需要通過(guò)統(tǒng)計(jì)模型進(jìn)行估計(jì),而且后續(xù)還需用不斷增加語(yǔ)料進(jìn)行優(yōu)化。這就是統(tǒng)計(jì)分類(lèi)模型的訓(xùn)練過(guò)程,其準(zhǔn)確率依賴(lài)于充分的語(yǔ)料標(biāo)注集合。充分的語(yǔ)料標(biāo)注往往意味著巨大的人工整理工作,尤其是面對(duì)勘探等行業(yè)的龐大的含有超過(guò)千個(gè)知識(shí)類(lèi)別節(jié)點(diǎn)的知識(shí)圖譜體系時(shí),意味著數(shù)十萬(wàn)個(gè)標(biāo)注好的文本單元(每個(gè)知識(shí)節(jié)點(diǎn)都對(duì)應(yīng)需要有50個(gè)以上的歸屬于該節(jié)點(diǎn)的訓(xùn)練語(yǔ)料以求充分覆蓋,同時(shí)需要注意到語(yǔ)料在知識(shí)節(jié)點(diǎn)上分配的不均衡性)。
如何在顯著降低語(yǔ)料標(biāo)注成本的基礎(chǔ)上保持優(yōu)良的標(biāo)注效果,在勘探領(lǐng)域圖文標(biāo)注問(wèn)題上,成為了文本標(biāo)注系統(tǒng)能否成功實(shí)施的關(guān)鍵所在。這一問(wèn)題的解決方案的兩個(gè)關(guān)鍵點(diǎn),包括初始化階段僅有少量標(biāo)注語(yǔ)料時(shí)如何建立查全率及查準(zhǔn)率較為良好的知識(shí)圖譜標(biāo)注模型,及后續(xù)運(yùn)營(yíng)中不斷更新豐富語(yǔ)料標(biāo)注。其中,在更新步驟中,基于半監(jiān)督學(xué)習(xí)算法對(duì)初始標(biāo)注模型進(jìn)行訓(xùn)練來(lái)優(yōu)化標(biāo)注模型Model(μ),從而獲得多變量參數(shù)μ的最優(yōu)估計(jì)值,以使得概率P(T|W,C,μ)與標(biāo)注圖文單元的知識(shí)點(diǎn)標(biāo)簽T的概率期望值最小。知識(shí)圖譜標(biāo)注模型的初始化和更新方法將在后文的對(duì)模型構(gòu)建單元和跨圖文知識(shí)圖譜應(yīng)用平臺(tái)中描述。
在圖5中,單一圖像內(nèi)多維知識(shí)點(diǎn)標(biāo)注子單元包含兩個(gè)連續(xù)作用的模塊:?jiǎn)我粓D像內(nèi)關(guān)鍵特征提取模塊、單一圖像內(nèi)知識(shí)點(diǎn)標(biāo)注模塊。
單一圖像內(nèi)關(guān)鍵特征提取模塊,主要目的為提取出單一圖像出現(xiàn)的文字展示內(nèi)容中顯性提及的關(guān)鍵特征,這些關(guān)鍵特征與前述的單一文本內(nèi)單元關(guān)鍵特征提取模塊所提取的特征一致。
單一圖像內(nèi)關(guān)鍵特征提取模塊采用的方法是,通過(guò)圖像處理技術(shù)-具體為邊緣提取、紋理分析、圖像分割、OCR識(shí)別等技術(shù),首先將圖像中的文字區(qū)域識(shí)別出來(lái),并識(shí)別出其對(duì)應(yīng)的單字,進(jìn)而借助這些單字的圖像特征(例如相互位置、聚類(lèi)、顏色及紋理相似度),識(shí)別出由單字組成的整個(gè)文字單元及對(duì)應(yīng)的命名實(shí)體-概念 類(lèi)及對(duì)象實(shí)例。其中的圖像處理技術(shù)介紹,可參見(jiàn)戚飛虎等譯著《模式識(shí)別與圖像處理》,上海交通大學(xué)出版社1989年出版,及Milan Sonka,Vaclav Hlavac和Roger Boyle合著的Image Processing,Analysis,and Machine Vision,Second Edition,英文原版為T(mén)homson出版社,授權(quán)國(guó)內(nèi)人民郵電出版社于2001年印刷。
當(dāng)圖像中的文字被提取后,后續(xù)的處理可參照單一文本單元內(nèi)關(guān)鍵特征提取模塊的處理方式,最終得出該圖像的特征集合描述。
所述單一圖像內(nèi)的知識(shí)點(diǎn)標(biāo)注模塊,在單一圖像的關(guān)鍵特征提取基礎(chǔ)上,采用與單一文本單元內(nèi)的知識(shí)點(diǎn)標(biāo)注模塊基本一樣的操作方法,計(jì)算出可以真實(shí)概述該圖像的主題知識(shí)點(diǎn)標(biāo)簽。
在圖5中,跨圖文知識(shí)圖譜應(yīng)用運(yùn)營(yíng)平臺(tái)主要是基于對(duì)文本單元及圖像的關(guān)鍵特征提取及主題知識(shí)點(diǎn)標(biāo)注,建立一個(gè)包含全文索引、關(guān)鍵詞及命名實(shí)體索引、以及知識(shí)點(diǎn)標(biāo)簽索引的索引庫(kù),并基于此索引庫(kù),向用戶(hù)提供分類(lèi)瀏覽及關(guān)鍵詞檢索的服務(wù)。
其中,所述分類(lèi)瀏覽模塊提供瀏覽功能。根據(jù)用戶(hù)對(duì)概念導(dǎo)航頁(yè)中不同的概念標(biāo)簽的操作指令,系統(tǒng)彈出對(duì)應(yīng)標(biāo)簽結(jié)果頁(yè),按某種排序標(biāo)準(zhǔn),排列出各種各樣的文本單元的摘要(含全文鏈接)及圖像縮略圖(含原圖鏈接)。
所述關(guān)鍵詞檢索模塊提供檢索功能。接收用戶(hù)輸入的檢索關(guān)鍵詞,系統(tǒng)對(duì)應(yīng)提供與查詢(xún)內(nèi)容相關(guān)的按照關(guān)聯(lián)度排序的文本單元的摘要(含全文鏈接)及圖像縮略圖(含原圖鏈接)的結(jié)果列表。其中,在關(guān)聯(lián)度計(jì)算中,文本單元或圖像的概念標(biāo)簽與用戶(hù)輸入關(guān)鍵詞相同,權(quán)重增加最多;文本單元或圖像的關(guān)鍵詞或命名實(shí)體與用戶(hù)輸入關(guān)鍵詞相同,權(quán)重增加較??;文本單元或圖像中的其他詞語(yǔ)與用戶(hù)輸入關(guān)鍵詞相同,權(quán)重增加最小。
在本發(fā)明的實(shí)施例中,檢索或分類(lèi)瀏覽的結(jié)果列表頁(yè)通過(guò)特別的用戶(hù)互動(dòng)與糾錯(cuò)界面展示,其特點(diǎn)是列表里的每個(gè)結(jié)果項(xiàng)的展示空間里,均附加一個(gè)允許用戶(hù)修正其提取出的知識(shí)點(diǎn)標(biāo)簽的按鈕及相應(yīng)的修改界面。這樣,用戶(hù)在使用該系統(tǒng)過(guò)程中,可以發(fā)揮群體智慧(Collective Intelligence),以非常低的個(gè)體人工成本來(lái)修正模型對(duì)于文本單元的部分錯(cuò)誤標(biāo)注,從而迅速積累大量的標(biāo)注好的語(yǔ)料。這些語(yǔ)料及用戶(hù)的修正動(dòng)作,將會(huì)通過(guò)語(yǔ)料庫(kù)更新單元,存儲(chǔ)于標(biāo)注語(yǔ)料庫(kù)中。
所述的語(yǔ)料庫(kù)更新單元不是簡(jiǎn)單地將用戶(hù)的修正標(biāo)簽直接存儲(chǔ)于標(biāo)注語(yǔ)料 庫(kù),而是結(jié)合用戶(hù)的專(zhuān)業(yè)性及權(quán)威度對(duì)用戶(hù)的每個(gè)修正標(biāo)簽加權(quán),最后選出分?jǐn)?shù)超出閾值的一個(gè)或多個(gè)知識(shí)點(diǎn)標(biāo)簽賦予該語(yǔ)料。
在圖5中,模型構(gòu)建單元將基于標(biāo)注語(yǔ)料庫(kù)的標(biāo)注語(yǔ)料,建立及持續(xù)更新知識(shí)圖譜的模型,主要是知識(shí)圖譜知識(shí)節(jié)點(diǎn)標(biāo)注模型??碧叫袠I(yè)的知識(shí)圖譜,是一個(gè)龐大、多維度、同時(shí)每個(gè)維度又多層級(jí)的一個(gè)知識(shí)圖譜。圖6表示了知識(shí)圖譜在某個(gè)具體的地質(zhì)對(duì)象和知識(shí)概念目錄分類(lèi)兩個(gè)維度的局部結(jié)構(gòu)。所謂的知識(shí)圖譜建模,就是對(duì)于這些知識(shí)圖譜框架中的每個(gè)知識(shí)節(jié)點(diǎn),都要建立知識(shí)圖譜知識(shí)節(jié)點(diǎn)標(biāo)注模型,也就是分類(lèi)模型,用來(lái)確定輸入的文本單元,是否符合該知識(shí)節(jié)點(diǎn)的模型,是否可以標(biāo)注為該知識(shí)節(jié)點(diǎn)。
模型構(gòu)建單元的主要技術(shù)挑戰(zhàn),在于初始化(冷啟動(dòng))時(shí),如何使用較少的人工,在整體語(yǔ)料缺乏的情況下,仍能獲得較好的概念標(biāo)注效果。本發(fā)明的實(shí)施例采用半監(jiān)督學(xué)習(xí)算法,主要是借助流形假設(shè),對(duì)特征的矢量空間表達(dá)做了改造,建立了較好的半監(jiān)督學(xué)習(xí)機(jī)制,從而在系統(tǒng)初始化階段,可以節(jié)省大量人工,訓(xùn)練得出較為有效的分類(lèi)器,并在隨后的運(yùn)營(yíng)中,充分利用跨圖文知識(shí)圖譜應(yīng)用運(yùn)營(yíng)平臺(tái)不斷充實(shí)、更新的語(yǔ)料不斷提高標(biāo)注的效果。
在一個(gè)優(yōu)選的示例中,在基于半監(jiān)督學(xué)習(xí)算法對(duì)初始標(biāo)注模型進(jìn)行訓(xùn)練的步驟中包括:基于流形假設(shè)構(gòu)建多維的分詞簇或者命名實(shí)體矢量空間,其包括由具有相同概念類(lèi)型的命名實(shí)體和具有相同詞性的分詞構(gòu)成的子空間;將系統(tǒng)中的未標(biāo)注語(yǔ)料矢量映射在子空間,得到未標(biāo)注語(yǔ)料矢量在每個(gè)分詞或者命名實(shí)體總詞頻上的映射,以及,在詞性和命名實(shí)體類(lèi)型的頻度及分詞和命名實(shí)體的數(shù)量上的映射;根據(jù)未標(biāo)注語(yǔ)料矢量與知識(shí)點(diǎn)節(jié)點(diǎn)矢量在子空間上的距離或者相似度的矢量測(cè)度的疊加,調(diào)整未標(biāo)注語(yǔ)料的預(yù)處理特征對(duì)標(biāo)注模型的貢獻(xiàn)的權(quán)重值,從而使得標(biāo)注模型概括未標(biāo)注語(yǔ)料的隱含內(nèi)容。
首先簡(jiǎn)單介紹下半監(jiān)督學(xué)習(xí)(Semi-supervised Learning)算法,它是模式識(shí)別和機(jī)器學(xué)習(xí)領(lǐng)域研究的重點(diǎn)問(wèn)題,是監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)相結(jié)合的一種學(xué)習(xí)方法。它主要考慮如何利用少量的標(biāo)注樣本和大量的未標(biāo)注樣本進(jìn)行訓(xùn)練和分類(lèi)的問(wèn)題。半監(jiān)督學(xué)習(xí)對(duì)于減少標(biāo)注代價(jià),提高學(xué)習(xí)機(jī)器性能具有非常重大的實(shí)際意義。近年來(lái)出現(xiàn)并獲得大量成功應(yīng)用的深度學(xué)習(xí)(Deep Learning)算法應(yīng)該可以算作半監(jiān)督學(xué)習(xí)的一個(gè)成功的樣本模型,它的優(yōu)點(diǎn)是可以在底層自動(dòng)進(jìn)行特征抽取聚類(lèi),然后再應(yīng)用分類(lèi)算法,在現(xiàn)有算法中最接近人腦的思維方式。關(guān)于深 度學(xué)習(xí)算法,可參考Hinton,G.E.,Osindero,S.and Teh,Y.所著的論文“A fast learning algorithm for deep belief nets”(發(fā)表于Neural Computation 18:1527-1554,2006)。
半監(jiān)督學(xué)習(xí)的一種普遍性假設(shè)是流形假設(shè),流形假設(shè)的主要思想是同一個(gè)局部鄰域內(nèi)的樣本數(shù)據(jù)具有相似的性質(zhì),因此其標(biāo)記也應(yīng)該是相似。在該假設(shè)下,未標(biāo)記的樣本數(shù)據(jù)就能夠讓數(shù)據(jù)空間變得更加密集,從而有利于更加標(biāo)準(zhǔn)地分析局部區(qū)域的特征,也使得決策函數(shù)能夠比較完滿(mǎn)地進(jìn)行數(shù)據(jù)擬合。
具體在勘探領(lǐng)域,基于流形的假設(shè),本實(shí)施例建立了一個(gè)更為精巧的多維的詞簇或命名實(shí)體矢量空間,整個(gè)矢量空間由多個(gè)子空間組成,每個(gè)類(lèi)型的命名實(shí)體或同一類(lèi)詞性的詞構(gòu)成一個(gè)子空間。矢量之間的距離或相似度的測(cè)度,是子空間上的距離或相似度的矢量測(cè)度的疊加。而矢量映射在子空間內(nèi)的子矢量,同時(shí)考慮了兩個(gè)矢量在每個(gè)具體詞/命名實(shí)體的映射(即頻度),以及兩個(gè)矢量在詞性和命名實(shí)體類(lèi)型的頻度及不同個(gè)體數(shù)的映射。
舉例來(lái)說(shuō),假設(shè)有3個(gè)文本單元,A文本單元里提及了5個(gè)不同的地質(zhì)構(gòu)造單元及3個(gè)方位詞,B文本單元提及了4個(gè)不同的地質(zhì)構(gòu)造單元及2個(gè)方位詞,但是A、B文本單元里提及的具體方位詞及地質(zhì)構(gòu)造單元實(shí)例無(wú)重合。C文本單元提及了A文本單元里的2個(gè)地質(zhì)構(gòu)造單元及B文本單元里的2個(gè)地質(zhì)構(gòu)造單元。在傳統(tǒng)的文本矢量空間里,無(wú)法度量出A與B有相似性,兩者距離很大。而C與A及C與B均有一定相似性。然而在我們的新模型中,即使代表兩個(gè)文本單元的兩個(gè)矢量A和B具有完全不同的詞和命名實(shí)體(對(duì)象實(shí)例),系統(tǒng)仍然能夠測(cè)度出兩者一定的相似性,并度量出A與B兩者在宏觀維度上映射的距離更接近,雖然在地質(zhì)構(gòu)造單元子空間維度內(nèi),A與C、B與C的距離較小,而A與B的距離較大。因而通過(guò)流形假設(shè),即使訓(xùn)練語(yǔ)料比較稀疏,也可以通過(guò)半監(jiān)督學(xué)習(xí),把未標(biāo)記的局部樣本數(shù)據(jù)也通過(guò)這種含有概括推演機(jī)制的矢量空間的距離度量,標(biāo)記為疑似某某類(lèi),并開(kāi)始傳導(dǎo),建立較為優(yōu)良的分類(lèi)模型。
具體實(shí)施中,本發(fā)明的實(shí)施例利用EM(期望最大化)算法,通過(guò)少量標(biāo)注文本及大批未標(biāo)注文本的統(tǒng)計(jì)分析不斷優(yōu)化P(T|W,C,μ)的統(tǒng)計(jì)概率模型,從而獲得一個(gè)最優(yōu)的μ的估計(jì)使得P(T|W,C,μ)與標(biāo)注文本單元的分類(lèi)標(biāo)簽的概率期望值最小化。
以構(gòu)造特征這個(gè)概念節(jié)點(diǎn)的模型訓(xùn)練為例,假設(shè)系統(tǒng)啟動(dòng)學(xué)習(xí)建模時(shí),只有 3-5個(gè)標(biāo)注為構(gòu)造特征的語(yǔ)料和其他大約幾千個(gè)未標(biāo)注為該概念節(jié)點(diǎn)的語(yǔ)料,以及大量的未標(biāo)注語(yǔ)料。由于我們引進(jìn)了概述性的預(yù)處理特征,系統(tǒng)將會(huì)在迭代中,不斷加強(qiáng)構(gòu)造特征類(lèi)型預(yù)處理特征及方位詞預(yù)處理特征兩個(gè)矢量維度上的偏差對(duì)于Log(P(Tag=T|W,C)概率模型的貢獻(xiàn)的權(quán)重值,而不斷減弱具體的構(gòu)造類(lèi)型對(duì)象實(shí)例及具體的方位詞維度,以及其他的命名實(shí)體及詞維度上的貢獻(xiàn)權(quán)重,因?yàn)樵谶@兩個(gè)維度為主構(gòu)成的超平面上,標(biāo)注為“構(gòu)造特征”知識(shí)點(diǎn)的語(yǔ)料和其他大約幾千個(gè)未標(biāo)注為該概念節(jié)點(diǎn)的語(yǔ)料展現(xiàn)出統(tǒng)計(jì)上明顯(Statistically Significant)的區(qū)分性。
相反地,如果沒(méi)有加入詞性及命名實(shí)體類(lèi)型的統(tǒng)計(jì)項(xiàng)這些特征,模型就失去了概括能力。這樣的模型,無(wú)論用SVM、EM或是其他監(jiān)督學(xué)習(xí)算法,可能需要數(shù)千個(gè)(涵蓋了數(shù)千個(gè)構(gòu)造單元實(shí)例及數(shù)十個(gè)方位詞)的標(biāo)注好的文本單元語(yǔ)料,才可能獲得一個(gè)優(yōu)良的概念標(biāo)注模型。
下文以幾個(gè)實(shí)際的勘探領(lǐng)域文本單元及圖像為例,對(duì)本文本標(biāo)引方法的具體實(shí)施效果進(jìn)行演示:
圖7是一個(gè)待標(biāo)注的文本單元(因該文本單元比較大,部分描述卡塔克隆起和古城墟隆起的文字內(nèi)容省略),對(duì)該文本單元進(jìn)行特征提取,提取出的特征包含有如下內(nèi)容。
1)大量的各級(jí)地質(zhì)構(gòu)造單元,其中中央隆起區(qū)、巴楚隆起、卡塔克隆起、古城墟隆起的在文本單元全文中出現(xiàn)頻度較高。在顯示出的局部文本單元例子中,巴楚隆起出現(xiàn)4次,中央隆起帶出現(xiàn)4次,另外的文本單元詞頻較低。整體而言,地質(zhì)構(gòu)造單元類(lèi)型的命名實(shí)體出現(xiàn)總頻度及出現(xiàn)的不同命名實(shí)體的個(gè)數(shù),都比較高。
2)大量地理位置的方位詞,如西北、東南、NW向展布,西南鄰、東北鄰,以及跟地理位置描述相關(guān)的屬性詞:分段、分帶、相隔、界限等。
基于知識(shí)圖譜標(biāo)注模型,系統(tǒng)可以識(shí)別出整個(gè)文本單元里最有概括意義的地質(zhì)構(gòu)造單元是塔里木盆地下的中央隆起帶,因?yàn)楸欢啻翁峒暗陌统∑稹⒖ㄋ寺∑?、古城墟隆起也都是歸屬中央隆起帶的知識(shí)點(diǎn)。
由于該文本單元出現(xiàn)了很多個(gè)不同的地質(zhì)構(gòu)造單元,同時(shí)含有很多地理方位的屬性描述詞,本實(shí)施例的知識(shí)圖譜標(biāo)注模型,會(huì)標(biāo)注出該文本單元符合知識(shí)分類(lèi)體系的“構(gòu)造特征”知識(shí)點(diǎn)的模型描述,雖然“構(gòu)造特征”這個(gè)詞并未出現(xiàn)在 該文本單元內(nèi)。
這樣,系統(tǒng)就將本文本單元的知識(shí)點(diǎn)標(biāo)注到下述2個(gè)最具概括性的知識(shí)節(jié)點(diǎn)上:
油氣勘探開(kāi)發(fā)/綜合研究/勘探地質(zhì)研究/構(gòu)造研究/構(gòu)造特征
塔里木盆地/中央隆起帶
進(jìn)一步,還將以略低的匹配分?jǐn)?shù),將本文本單元標(biāo)注到下述5個(gè)不同層面上具有概括性的知識(shí)節(jié)點(diǎn)上:
油氣勘探開(kāi)發(fā)/綜合研究/勘探地質(zhì)研究/構(gòu)造研究/構(gòu)造特征/斷裂構(gòu)造
油氣勘探開(kāi)發(fā)/綜合研究/勘探地質(zhì)研究/構(gòu)造研究/構(gòu)造特征/構(gòu)造格局
塔里木盆地/中央隆起帶/巴楚隆起
塔里木盆地/中央隆起帶/卡塔克隆起
塔里木盆地/中央隆起帶/古城墟隆起
圖8是一個(gè)待標(biāo)注的圖像。單一圖像內(nèi)關(guān)鍵特征提取模塊通過(guò)圖像處理技術(shù),首先將圖像中的文字區(qū)域識(shí)別出來(lái),并識(shí)別出其對(duì)應(yīng)的單字。進(jìn)一步地,基于每個(gè)文字單元所包含的文字覆蓋領(lǐng)域的圖像特征的一致性,比如顏色一致、紋理一致等,以及基于文字排列由上至下由左至右,可以提取一系列文字單元:
1)在圖像右下角提取出一系列對(duì)應(yīng)圖標(biāo)的文字單元:“盆內(nèi)隆起”“井位”“基底出露區(qū)”“推測(cè)斷裂”等,并識(shí)別出這些是一系列與地理位置相關(guān)的命名實(shí)體類(lèi)型。
2)在圖像主體部分提取出“中央隆起帶”“塔北隆起”“塔南隆起”“西南坳陷”“北部坳陷”“庫(kù)車(chē)坳陷”“東南坳陷”等文字單元,系統(tǒng)可以識(shí)別出這些文字單元描述的是具體的地質(zhì)構(gòu)造單元實(shí)例。
進(jìn)一步地,單一圖像內(nèi)的知識(shí)點(diǎn)標(biāo)注模塊將標(biāo)注該圖像為“塔里木盆地”(圖像中未出現(xiàn)該詞,但塔里木盆地恰好覆蓋了單一圖像內(nèi)關(guān)鍵特征提取模塊提取出的地質(zhì)構(gòu)造單元實(shí)例),在分類(lèi)目錄體系上將其標(biāo)注為“構(gòu)造特征”及“構(gòu)造格局”(基于該圖被識(shí)別為大量的地質(zhì)構(gòu)造單元實(shí)例的地理位置信息)。
當(dāng)使用者輸入“中央隆起帶構(gòu)造特征”或“中央隆起帶構(gòu)造格局”等詞查詢(xún)內(nèi)容時(shí),本發(fā)明的系統(tǒng)將會(huì)通過(guò)知識(shí)點(diǎn)索引表,檢索出圖3所示的文本單元,并優(yōu)先排序。也就是說(shuō),該文本單元的排序?qū)?yōu)于那些圖文單元里顯性提及了“構(gòu)造單元”“中央隆起帶”但是其實(shí)主題涵義并非這兩者的圖文單元(比如某些文 獻(xiàn)成果的背景介紹篇章里,簡(jiǎn)單提到了“中央隆起帶構(gòu)造單元”等多個(gè)類(lèi)似的詞作為例子但并未展開(kāi)描述)。
當(dāng)使用者輸入“塔里木盆地構(gòu)造格局”查詢(xún)內(nèi)容時(shí),本發(fā)明的系統(tǒng)將會(huì)通過(guò)知識(shí)點(diǎn)索引表,檢索出圖8所示的圖片,并優(yōu)先排序。該圖像將會(huì)比那些圖文單元里顯性提及了“構(gòu)造單元”“塔里木盆地”但是其實(shí)主題涵義并非這兩者的圖文單元(比如某個(gè)中國(guó)或中國(guó)西邊的地質(zhì)勘探地圖里,顯示了“塔里木盆地”及“構(gòu)造格局”等詞,但圖片內(nèi)容并未描述塔里木盆地內(nèi)部的構(gòu)造格局)優(yōu)先顯示。
雖然本發(fā)明所公開(kāi)的實(shí)施方式如上,但所述的內(nèi)容只是為了便于理解本發(fā)明而采用的實(shí)施方式,并非用以限定本發(fā)明。任何本發(fā)明所屬技術(shù)領(lǐng)域內(nèi)的技術(shù)人員,在不脫離本發(fā)明所公開(kāi)的精神和范圍的前提下,可以在實(shí)施的形式上及細(xì)節(jié)上作任何的修改與變化,但本發(fā)明的專(zhuān)利保護(hù)范圍,仍須以所附的權(quán)利要求書(shū)所界定的范圍為準(zhǔn)。