本發(fā)明涉及自然語言處理以及知識圖譜領(lǐng)域,尤其涉及一種結(jié)合實體描述的知識圖譜表示學(xué)習(xí)方法和系統(tǒng)。
背景技術(shù):
隨著社會飛速發(fā)展,我們已經(jīng)進(jìn)入信息爆炸時代,每天都會有海量新的實體與信息產(chǎn)生?;ヂ?lián)網(wǎng)作為當(dāng)今最為便捷的信息獲取平臺,用戶對有效信息篩選與歸納的需求日益迫切,如何從海量數(shù)據(jù)中獲取有價值的信息成為一個難題。知識圖譜于此應(yīng)運而生。
知識圖譜將世上所有人物、地名、書名、球隊名等專有名詞與事物表示為實體,將實體之間的內(nèi)在聯(lián)系表示為關(guān)系,旨在將數(shù)據(jù)庫中的海量知識表示為實體之間利用關(guān)系作為橋梁的三元關(guān)系組。例如,北京是中國的首都這一知識,在知識圖譜中則利用三元組關(guān)系(北京,是……首都,中國)進(jìn)行表示。知識圖譜能夠?qū)σ粋€關(guān)鍵詞的不同語義建立不同的實體,消除語言多義性的干擾,同時能夠展現(xiàn)目標(biāo)實體與其它相關(guān)實體之間更深更廣的內(nèi)在聯(lián)系,被廣泛運用于數(shù)據(jù)挖掘、信息檢索、問答系統(tǒng)等多個領(lǐng)域。由于現(xiàn)有實體規(guī)模巨大,且實體與關(guān)系每日都在變化與增加,難以人工維護(hù)與挖掘新的信息,對知識圖譜的表示與自動補全是當(dāng)今重要的研究熱點。
知識圖譜實體數(shù)量巨大,網(wǎng)絡(luò)結(jié)構(gòu)稀疏性嚴(yán)重。而近年來在知識圖譜的研究上取得了顯著的進(jìn)展,表示學(xué)習(xí)運用于知識圖譜中,將所有實體與關(guān)系映射到一個低維連續(xù)向量空間中,解決了之前知識圖譜學(xué)習(xí)時產(chǎn)生的稀疏性與效率問題。但是,目前已有的知識圖譜表示學(xué)習(xí)方法在訓(xùn)練時需要學(xué)習(xí)實體之間的關(guān)系,對于新出現(xiàn)的實體無法進(jìn)行表示;同時,絕大多數(shù)已有的方法僅使用了知識圖譜中實體之間的結(jié)構(gòu)關(guān)系,而忽略了知識圖譜中的實體文本描述等額外信息,知識圖譜補全以及實體分類等任務(wù)中準(zhǔn)確率比較低。
技術(shù)實現(xiàn)要素:
本發(fā)明的一個目的在于解決如下技術(shù)問題:如何提供一種新的結(jié)合實體描述的知識圖譜表示學(xué)習(xí)方法,高效準(zhǔn)確地完成知識圖譜的表示學(xué)習(xí),以克服現(xiàn)有技術(shù)無法表示新的實體,以及未能充分利用實體描述信息的問題。
第一方面,本發(fā)明提供了一種結(jié)合實體描述的知識圖譜表示學(xué)習(xí)方法,該方法包括:
步驟S1、以實體的文本描述為基礎(chǔ),建立模型一和/或模型二,基于建立的模型獲取基于描述的向量表示;所述模型一為建立基于連續(xù)詞袋的模型,所述模型二為建立基于卷積神經(jīng)網(wǎng)絡(luò)的模型;
步驟S2、根據(jù)實體向量與關(guān)系向量之間基于轉(zhuǎn)化的模型,對步驟S1中得到的基于描述的向量表示進(jìn)行學(xué)習(xí)得到實體的第一向量表示,并對基于結(jié)構(gòu)的向量表示進(jìn)行學(xué)習(xí)得到實體的第二向量表示;
步驟S3、使用步驟S2學(xué)習(xí)得到的實體的向量表示,在不同任務(wù)中獲取向量空間中的表示結(jié)果。
進(jìn)一步的,當(dāng)建立的模型為模型一時,所述步驟S1具體包括:
步驟S11a,構(gòu)建數(shù)據(jù)集和進(jìn)行預(yù)處理;所述數(shù)據(jù)集包括知識圖譜的實體關(guān)系三元組以及實體描述;所述三元組包括首實體的向量表示h,尾實體的向量表示t,關(guān)系的向量表示r;
步驟S12a,根據(jù)用戶輸入設(shè)置基于連續(xù)詞袋的模型參數(shù),并對實體描述中的詞向量進(jìn)行初始化;
步驟S13a,基于詞袋模型的假設(shè),利用文本特征從實體描述中抽取關(guān)鍵詞;
步驟S14a,從關(guān)鍵詞詞向量構(gòu)建實體基于描述的向量表示。
進(jìn)一步的,當(dāng)建立的模型為模型二時,步驟S1具體包括:
步驟S11b,構(gòu)建數(shù)據(jù)集和進(jìn)行預(yù)處理;所述數(shù)據(jù)集包括知識圖譜的實體關(guān)系三元組以及實體描述;所述三元組包括首實體的向量表示h,尾實體的向量表示t,關(guān)系的向量表示r;
步驟S12b,根據(jù)用戶輸入設(shè)計卷積神經(jīng)網(wǎng)絡(luò)的整體結(jié)構(gòu),完成詞向量的初始化;
步驟S13b,根據(jù)用戶輸入設(shè)置卷積層的結(jié)構(gòu)與參數(shù);
步驟S14b,根據(jù)用戶輸入設(shè)置池化層的結(jié)構(gòu)與參數(shù);
步驟S15b,利用前向傳播過程建立實體基于描述的向量表示。
進(jìn)一步的,當(dāng)步驟S13b中用戶輸入的池化層的層數(shù)為2時,步驟S13b中得到的第一層池化層的輸出公式為第二層池化層的輸出公式為其中n表示最大值池化中不重疊的窗口大小,m表示平均值池化的元素個數(shù),表示第l層卷積層輸出矩陣的第i個向量。
進(jìn)一步的,所述步驟S2具體包括:
步驟S21,根據(jù)實體向量與關(guān)系向量之間基于轉(zhuǎn)化的模型,構(gòu)造能量方程;所述能量方程為E(h,r,t)=||hs+r-ts||+||hd+r-ts||+||hs+r-td||+||hd+r-td||,其中hs為首實體基于結(jié)構(gòu)的向量表示,ts為尾實體基于結(jié)構(gòu)的向量表示,hd為首實體基于描述的向量表示,td為尾實體基于描述的向量表示;
步驟S22、通過后向傳播算法,最小化基于邊際的評價函數(shù),對所有參數(shù)進(jìn)行學(xué)習(xí)與更新;其中,基于邊際的評價函數(shù)其中γ>0是超參數(shù),d(h+r,t)是評價t和h+r相似度的函數(shù);h′為首實體的負(fù)例的向量表示;t′為尾實體的負(fù)例的向量表示;r′尾實體的負(fù)例的向量表示;T是三元關(guān)系組的正例集,T′是三元關(guān)系組的負(fù)例集
第二方面,本發(fā)明提供了一種結(jié)合實體描述的知識圖譜表示學(xué)習(xí)系統(tǒng),該系統(tǒng)包括:
第一獲取模塊,用于以實體的文本描述為基礎(chǔ),建立模型一和/或模型二,基于建立的模型獲取基于描述的向量表示;所述模型一為建立基于連續(xù)詞袋的模型,所述模型二為建立基于卷積神經(jīng)網(wǎng)絡(luò)的模型;
第二獲取模塊,用于根據(jù)實體向量與關(guān)系向量之間基于轉(zhuǎn)化的模型,對第一獲取模塊得到的基于描述的向量表示進(jìn)行學(xué)習(xí)得到實體的第一向量表示,并對基于結(jié)構(gòu)的向量表示進(jìn)行學(xué)習(xí)得到實體的第二向量表示;
表示模塊,用于使用第二獲取模塊學(xué)習(xí)得到的實體的向量表示,在不同任務(wù)中獲取向量空間中的表示結(jié)果。
進(jìn)一步的,當(dāng)建立的模型為模型一時,所述第一獲取模塊,具體用于構(gòu)建數(shù)據(jù)集和進(jìn)行預(yù)處理;根據(jù)用戶輸入設(shè)置基于連續(xù)詞袋的模型參數(shù),并對實體描述中的詞向量進(jìn)行初始化;基于詞袋模型的假設(shè),利用文本特征從實體描述中抽取關(guān)鍵詞;從關(guān)鍵詞詞向量構(gòu)建實體基于描述的向量表示;其中,所述數(shù)據(jù)集包括知識圖譜的實體關(guān)系三元組以及實體描述;所述三元組包括首實體的向量表示h,尾實體的向量表示t,關(guān)系的向量表示r。
進(jìn)一步的,當(dāng)建立的模型為模型二時,所述第一獲取模塊具體用于構(gòu)建數(shù)據(jù)集和進(jìn)行預(yù)處理;根據(jù)用戶輸入設(shè)計卷積神經(jīng)網(wǎng)絡(luò)的整體結(jié)構(gòu),完成詞向量的初始化;根據(jù)用戶輸入設(shè)置卷積層的結(jié)構(gòu)與參數(shù);根據(jù)用戶輸入設(shè)置池化層的結(jié)構(gòu)與參數(shù);利用前向傳播過程建立實體基于描述的向量表示;其中,所述三元組包括首實體的向量表示h,尾實體的向量表示t,關(guān)系的向量表示r。
進(jìn)一步的,當(dāng)用戶輸入的池化層的層數(shù)為2時,所述第一獲取模塊設(shè)置的第一層池化層的輸出公式為第二層池化層的輸出公式為其中n表示最大值池化中不重疊的窗口大小,m表示平均值池化的元素個數(shù),表示第l層卷積層輸出矩陣的第i個向量。
進(jìn)一步的,所述第二獲取模塊,具體用于根據(jù)實體向量與關(guān)系向量之間基于轉(zhuǎn)化的模型,構(gòu)造能量方程;所述能量方程為E(h,r,t)=||hs+r-ts||+||hd+r-ts||+||hs+r-td||+||hd+r-td||;通過后向傳播算法,最小化基于邊際的評價函數(shù),對所有參數(shù)進(jìn)行學(xué)習(xí)與更新;其中,hs為首實體基于結(jié)構(gòu)的向量表示,ts為尾實體基于結(jié)構(gòu)的向量表示,hd為首實體基于描述的向量表示,td為尾實體基于描述的向量表示;r為關(guān)系的向量表示;基于邊際的評價函數(shù)為其中γ>0是超參數(shù),d(h+r,t)是評價t和h+r相似度的函數(shù);h′為首實體的負(fù)例的向量表示;t′為尾實體的負(fù)例的向量表示;r′尾實體的負(fù)例的向量表示;T是三元關(guān)系組的正例集,T′是三元關(guān)系組的負(fù)例集。
本發(fā)明提供的方法和系統(tǒng),提出基于連續(xù)詞袋的模型以及基于卷積神經(jīng)網(wǎng)絡(luò)的模型兩種模型構(gòu)建實體基于描述的向量表示。不僅利用了實體之間的三元組關(guān)系信息,也利用了實體描述中蘊含的文本信息,使用模型學(xué)習(xí)得到的兩種實體向量表示方式,能夠在知識圖譜補全以及實體分類等任務(wù)中得到更高的準(zhǔn)確率;同時基于描述的向量表示通過文本信息構(gòu)建實體向量,能夠很好地對新實體或訓(xùn)練集中不存在的實體進(jìn)行表示,具有良好的實用性。
附圖說明
通過參考附圖會更加清楚的理解本發(fā)明的特征信息和優(yōu)點,附圖是示意性的而不應(yīng)理解為對本發(fā)明進(jìn)行任何限制,在附圖中:
圖1示出了一個知識圖譜中三元關(guān)系組及其實體描述的示例圖;
圖2示出了本發(fā)明的一個實施例提供的一種結(jié)合實體描述的知識圖譜表示學(xué)習(xí)方法的流程示意圖;
圖3為示出了一種基于連續(xù)詞袋模型的向量表示;
圖4示出了一種基于卷積神經(jīng)網(wǎng)絡(luò)模型的向量表示;
圖5輸出了本發(fā)明的一個實施例提供的一種結(jié)合實體描述的知識圖譜表示學(xué)習(xí)系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點,下面結(jié)合附圖和具體實施方式對本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說明的是,在不沖突的情況下,本申請的實施例及實施例中的特征可以相互組合。
首先對本發(fā)明的基本思想以及其中涉及到的基本概念進(jìn)行解釋說明。
知識圖譜表示學(xué)習(xí)方法旨在將所有實體與關(guān)系映射到一個低維連續(xù)向量空間中,使用向量對實體與關(guān)系進(jìn)行表示,解決了知識圖譜學(xué)習(xí)中產(chǎn)生的稀疏性問題。本發(fā)明提出的一種結(jié)合實體描述的知識圖譜表示學(xué)習(xí)方法,能夠充分利用實體的文本描述信息提升表示學(xué)習(xí)的效果,并且能夠拓展至新實體上,具有良好的實用性。
圖1給出了一個知識圖譜中三元關(guān)系組及其實體描述的示例圖。其中,“William Shakespeare”為首實體(為了方便說明,以下以h代表首實體),“Romeo and Juliet”為尾實體(為了方便說明,以下以t代表首實體),“book/author/works_written”為關(guān)系(為了方便說明,以下以r代表關(guān)系),兩個實體下面為其實體描述的節(jié)選。我們可以看到,在首實體的實體描述中,“English”、“poet”、“playwriter”等詞都間接地給出了實體的信息,在尾實體的實體描述中,“William Shakespeare”、“tragedy”等詞也能夠?qū)Υ巳M的關(guān)系預(yù)測提供文本層面的信息。從圖1我們可以發(fā)現(xiàn),從實體描述為基礎(chǔ)建立基于描述的向量表示是可行且有益的,表示學(xué)習(xí)的結(jié)果在多個任務(wù)上均能取得優(yōu)秀的結(jié)果。
基于此,本發(fā)明的第一方面提供了一種結(jié)合實體描述的知識圖譜表示學(xué)習(xí)方法,參見圖2,該方法包括:
步驟S1、以實體的文本描述為基礎(chǔ),建立模型一和/或模型二,基于建立的模型獲取基于描述的向量表示;所述模型一為建立基于連續(xù)詞袋的模型,所述模型二為建立基于卷積神經(jīng)網(wǎng)絡(luò)的模型;
步驟S2、根據(jù)實體向量與關(guān)系向量之間基于轉(zhuǎn)化的模型,對步驟S1中得到的基于描述的向量表示進(jìn)行學(xué)習(xí)得到實體的第一向量表示,并對基于結(jié)構(gòu)的向量表示進(jìn)行學(xué)習(xí)得到實體的第二向量表示;
步驟S3、使用步驟S2學(xué)習(xí)得到的實體的向量表示,在不同任務(wù)中獲取向量空間中的表示結(jié)果。
本發(fā)明提供的方法中,提出基于連續(xù)詞袋的模型以及基于卷積神經(jīng)網(wǎng)絡(luò)的模型兩種模型構(gòu)建實體基于描述的向量表示。不僅利用了實體之間的三元組關(guān)系信息,也利用了實體描述中蘊含的文本信息,使用模型學(xué)習(xí)得到的兩種實體向量表示方式,能夠在知識圖譜補全以及實體分類等任務(wù)中得到更高的準(zhǔn)確率;同時基于描述的向量表示通過文本信息構(gòu)建實體向量,能夠很好地對新實體或訓(xùn)練集中不存在的實體進(jìn)行表示,具有良好的實用性。
在具體實施時,當(dāng)建立的模型為模型一時,步驟S1可以具體包括圖中未示出的:
步驟S11a,構(gòu)建數(shù)據(jù)集和進(jìn)行預(yù)處理;
具體來說,可以包括收集知識圖譜的實體關(guān)系三元組以及實體描述,選擇訓(xùn)練集、開發(fā)集和測試集;所述三元組包括首實體的向量表示h,尾實體的向量表示t,關(guān)系的向量表示r;
所述進(jìn)行預(yù)處理包括對數(shù)據(jù)集中的實體描述去除停用詞以及符號信息、統(tǒng)一轉(zhuǎn)換大小寫等,同時根據(jù)實體的名稱,獲取實體描述中的詞組信息,將詞組的處理等同于詞;
步驟S12a,根據(jù)用戶輸入設(shè)置基于連續(xù)詞袋的模型參數(shù),并對實體描述中的詞向量進(jìn)行初始化;
步驟S13a,基于詞袋模型的假設(shè),利用文本特征從實體描述中抽取關(guān)鍵詞;
步驟S14a,從關(guān)鍵詞詞向量構(gòu)建實體基于描述的向量表示。
具體地,所述模型參數(shù)包括關(guān)鍵詞的個數(shù)以及不同關(guān)鍵詞的權(quán)值;所述實體描述中的詞向量初始化可以具體是指使用已有詞向量在大規(guī)模語料下的表示學(xué)習(xí)結(jié)果作為初始化值;所述文本特征包括詞頻和逆向文件頻率。使用其它模型參數(shù)、初始化方法以及文本特征和預(yù)處理的簡單變化不構(gòu)成本質(zhì)上的創(chuàng)新,也應(yīng)理解為本發(fā)明要保護(hù)的范圍。
所述基于描述的向量表示計算公式如下:
ed=x1+x2+…+xk,
其中xi表示實體第i個關(guān)鍵詞的詞向量,ed表示實體的基于描述的向量表示。
綜上所述,基于連續(xù)詞袋的模型能夠以實體描述作為輸入,輸出一個固定長度的向量,作為實體基于描述的向量表示。經(jīng)上述的步驟S11a-步驟S14a得到的基于連續(xù)詞袋模型的向量表示可以如圖3所示。
在具體實施時,當(dāng)建立的模型為模型二時,步驟S1可以具體包括圖中未示出的:
步驟S11b,構(gòu)建數(shù)據(jù)集和進(jìn)行預(yù)處理;所述三元組包括首實體的向量表示h,尾實體的向量表示t,關(guān)系的向量表示r;
這里的步驟S11b可以同步驟S11a,在此不再詳細(xì)說明;
步驟S12b,根據(jù)用戶輸入設(shè)計卷積神經(jīng)網(wǎng)絡(luò)的整體結(jié)構(gòu),完成詞向量的初始化;
步驟S13b,根據(jù)用戶輸入設(shè)置卷積層的結(jié)構(gòu)與參數(shù);
步驟S14b,根據(jù)用戶輸入設(shè)置池化層的結(jié)構(gòu)與參數(shù);
步驟S15b,利用前向傳播過程建立實體基于描述的向量表示。
在具體實施時,這里的卷積神經(jīng)網(wǎng)絡(luò)的整體結(jié)構(gòu)可以共有五層,以實體描述作為輸入,輸出一個固定維數(shù)的向量。與一般神經(jīng)網(wǎng)絡(luò)不同,卷積神經(jīng)網(wǎng)絡(luò)能夠充分利用實體描述的詞序信息,同時能夠自動發(fā)現(xiàn)描述中包含重要信息的詞組,并且能夠處理變長的輸入。
所述設(shè)計卷積層的結(jié)構(gòu)與參數(shù)包括窗口過程以及卷積過程,其中窗口過程公式如下:
卷積層的輸出公式如下:
其中表示第l層卷積層輸出矩陣的第i個向量,xi(l)表示第l層卷積層輸入矩陣的第i個向量;xi′是窗口過程的第i個輸出向量,即輸入向量xi到xi+k-1串聯(lián)起來的向量,k是窗口的大小;W(l)與分別是第l層卷積層的卷積核矩陣以及偏置向量,σ是激發(fā)函數(shù),本發(fā)明使用tanh作為非線性函數(shù)。
所述池化層的結(jié)構(gòu)與參數(shù)設(shè)計如下:為了減小參數(shù)空間,過濾掉噪聲和冗余信息,第一層池化層使用最大值池化;為了是描述各部分都對向量表示產(chǎn)生影響,第二層池化層使用平均值池化。
第一層池化層的輸出公式如下:
第二層池化層的輸出公式如下:
其中,n表示最大值池化中不重疊的窗口大小,m表示平均值池化的元素個數(shù)。
綜上所述,基于連續(xù)詞袋的模型能夠以實體描述作為輸入,輸出一個固定維數(shù)的向量,作為實體基于描述的向量表示,參與步驟S2中實體向量與關(guān)系向量之間基于轉(zhuǎn)化的模型的學(xué)習(xí)。
實體向量與關(guān)系向量之間基于轉(zhuǎn)化的模型是近年來知識圖譜表示學(xué)習(xí)中的經(jīng)典模型。在本發(fā)明模型中,每個實體均有兩種向量表示:基于描述的向量表示以及基于結(jié)構(gòu)的向量表示,基于結(jié)構(gòu)的向量表示與已有基于轉(zhuǎn)化的模型中的表示方法一致,直接使用向量表示實體,而基于描述的向量表示則由步驟S1中兩個模型得到。
經(jīng)上述的步驟S11b-步驟S14b得到的基于卷積網(wǎng)絡(luò)模型的向量表示可以如圖4所示。
在具體實施時,這里的步驟S2可以具體包括圖中未示出的:
步驟S21、根據(jù)實體向量與關(guān)系向量之間基于轉(zhuǎn)化的模型,構(gòu)造能量方程;
步驟S22、通過后向傳播算法,最小化基于邊際的評價函數(shù),對所有參數(shù)進(jìn)行學(xué)習(xí)與更新。
其中步驟S21中的能量方程公式可以如下:
E(h,r,t)=||hs+r-ts||+||hd+r-ts||+||hs+r-td||+||hd+r-td||
其中hs為首實體基于結(jié)構(gòu)的向量表示,ts為尾實體基于結(jié)構(gòu)的向量表示,hd為首實體基于描述的向量表示,td為尾實體基于描述的向量表示,兩種表示方法共用關(guān)系向量的表示r。
在步驟S22中,基于邊際的評價函數(shù)如下:
其中γ>0是超參數(shù),d(h+r,t)是評價t和h+r相似度的函數(shù),可以使用L1范式或者L2范式;h′為首實體的負(fù)例的向量表示;t′為尾實體的負(fù)例的向量表示;T是三元關(guān)系組的正例集,T′是三元關(guān)系組的負(fù)例集,r′尾實體的負(fù)例的向量表示;具體定義可以如下:
T′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}∪{(h,r′,t)|r′∈R}
可見T′可以通過隨機替換三元組中h,r或者t并去除替換后是正例的三元組后得到。評價函數(shù)中的實體向量可使用基于描述的向量表示或者基于結(jié)構(gòu)的向量表示。所述后向傳播算法使用標(biāo)準(zhǔn)隨機梯度下降算法,根據(jù)鏈?zhǔn)椒▌t對所有參數(shù)進(jìn)行更新。
在具體實施時,上述的步驟S3中,根據(jù)任務(wù)的不同可以靈活選擇不同的向量表示。比如針對需要表示的實體在訓(xùn)練集中出現(xiàn)過的情況,可以聯(lián)合使用兩種實體向量表示方式進(jìn)行預(yù)測;針對需要表示的實體為新實體的情況,可以使用基于描述的向量表示進(jìn)行預(yù)測。
第二方面,本發(fā)明還提供了一種結(jié)合實體描述的知識圖譜表示學(xué)習(xí)系統(tǒng),可用于實現(xiàn)第一方面所述的學(xué)習(xí)方法,參見圖5,該系統(tǒng)包括:
第一獲取模塊51,用于以實體的文本描述為基礎(chǔ),建立模型一或/模型二,基于建立的模型獲取基于描述的向量表示;所述模型一為建立基于連續(xù)詞袋的模型,所述模型二為建立基于卷積神經(jīng)網(wǎng)絡(luò)的模型二;
第二獲取模塊52,用于根據(jù)實體向量與關(guān)系向量之間基于轉(zhuǎn)化的模型,對第一獲取模塊得到的基于描述的向量表示進(jìn)行學(xué)習(xí)得到實體的第一向量表示,并對基于結(jié)構(gòu)的向量表示進(jìn)行學(xué)習(xí)得到實體的第二向量表示;
表示模塊53,用于使用第二獲取模塊學(xué)習(xí)得到的實體的向量表示,在不同任務(wù)中獲取向量空間中的表示結(jié)果。
進(jìn)一步的,當(dāng)建立的模型為模型一時,第一獲取模塊51,具體用于構(gòu)建數(shù)據(jù)集和進(jìn)行預(yù)處理;根據(jù)用戶輸入設(shè)置基于連續(xù)詞袋的模型參數(shù),并對實體描述中的詞向量進(jìn)行初始化;基于詞袋模型的假設(shè),利用文本特征從實體描述中抽取關(guān)鍵詞;從關(guān)鍵詞詞向量構(gòu)建實體基于描述的向量表示;其中,所述數(shù)據(jù)集包括知識圖譜的實體關(guān)系三元組以及實體描述;所述三元組包括首實體的向量表示h,尾實體的向量表示t,關(guān)系的向量表示r。
進(jìn)一步的,當(dāng)建立的模型為模型二時,第一獲取模塊51具體用于構(gòu)建數(shù)據(jù)集和進(jìn)行預(yù)處理;根據(jù)用戶輸入設(shè)計卷積神經(jīng)網(wǎng)絡(luò)的整體結(jié)構(gòu),完成詞向量的初始化;根據(jù)用戶輸入設(shè)置卷積層的結(jié)構(gòu)與參數(shù);根據(jù)用戶輸入設(shè)置池化層的結(jié)構(gòu)與參數(shù);利用前向傳播過程建立實體基于描述的向量表示;其中,所述三元組包括首實體的向量表示h,尾實體的向量表示t,關(guān)系的向量表示r。
進(jìn)一步,當(dāng)用戶輸入的池化層的層數(shù)為2時,所述第一獲取模塊設(shè)置的第一層池化層的輸出公式為第二層池化層的輸出公式為其中n表示最大值池化中不重疊的窗口大小,m表示平均值池化的元素個數(shù),表示第l層卷積層輸出矩陣的第i個向量。
進(jìn)一步的,第二獲取模塊52,具體用于根據(jù)實體向量與關(guān)系向量之間基于轉(zhuǎn)化的模型,構(gòu)造能量方程;所述能量方程為E(h,r,t)=||hs+r-ts||+||hd+r-ts||+||hs+r-td||+||hd+r-td||;通過后向傳播算法,最小化基于邊際的評價函數(shù),對所有參數(shù)進(jìn)行學(xué)習(xí)與更新;其中,hs為首實體基于結(jié)構(gòu)的向量表示,ts為尾實體基于結(jié)構(gòu)的向量表示,hd為首實體基于描述的向量表示,td為尾實體基于描述的向量表示;r為關(guān)系的向量表示;基于邊際的評價函數(shù)為其中γ>0是超參數(shù),d(h+r,t)是評價t和h+r相似度的函數(shù);h′為首實體的負(fù)例的向量表示;t′為尾實體的負(fù)例的向量表示;r′尾實體的負(fù)例的向量表示;T是三元關(guān)系組的正例集,T′是三元關(guān)系組的負(fù)例集。
雖然結(jié)合附圖描述了本發(fā)明的實施方式,但是本領(lǐng)域技術(shù)人員可以在不脫離本發(fā)明的精神和范圍的情況下做出各種修改和變型,這樣的修改和變型均落入由所附權(quán)利要求所限定的范圍之內(nèi)。