專利名稱:得到和搜索結(jié)構(gòu)化語義知識的方法及對應(yīng)裝置的制作方法
得到和搜索結(jié)構(gòu)化語義知識的方法及對應(yīng)裝置
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機技術(shù)領(lǐng)域,特別涉及一種得到和搜索結(jié)構(gòu)化語義知識的方法及
對應(yīng)裝置。
背景技術(shù):
隨著計算機技術(shù)的不斷發(fā)展,搜索引擎逐漸成為人們獲取信息的主要工具,其中實體相關(guān)的搜索在搜索引擎技術(shù)中占有很大比重,其中一類為搜索滿足需求約束的某種類型的實體。例如,用戶在搜索引擎中輸入搜索項(query) “戰(zhàn)爭電影”,即要搜索以戰(zhàn)爭作為需求限定的電影類型的實體;再如,用戶在搜索引擎中輸入query “澳大利亞動物”,即要搜索以澳大利亞作為需求限定的動物類型的實體。這些query的共同特征是都采用了 “需求限定詞+實體類型”的形式,想要獲得的是具體的實體。然而,在現(xiàn)有的搜索引擎技術(shù)中,當用戶輸入“需求限定詞+實體類型”式的query時,搜索引擎返回的往往是與該query相關(guān)的頁面,用戶需要通過點擊并進入相應(yīng)頁面并瀏覽具體頁面內(nèi)容來搜尋對應(yīng)的具體實體,甚至搜索引擎返回的頁面可能無法滿足用戶的搜索需求,顯然就會浪費網(wǎng)絡(luò)資源和用戶的時間,甚至無法達到搜索的目的。究其原因,正是因為現(xiàn)有技術(shù)中尚沒有一種好的方式能夠?qū)⑿枨笙薅ㄔ~、實體類型和實體對應(yīng)構(gòu)成的結(jié)構(gòu)化信息挖掘出來,從而無法實現(xiàn)基于此的結(jié)構(gòu)化搜索。
發(fā)明內(nèi)容有鑒于此,本發(fā)明提供了一種得到和搜索結(jié)構(gòu)化語義知識的方法及對應(yīng)裝置,以便于在用戶輸入“需求限定詞+實體類型”的query進行搜索時,在滿足用戶搜索需求的同時節(jié)約網(wǎng)絡(luò)資源和用戶的時 間。具體技術(shù)方案如下:一種得到結(jié)構(gòu)化語義知識的方法,該方法包括:S1、對已有語料進行分詞處理和命名實體識別,抽取出實體類型E的實體ei ;S2、從搜索日志中獲取所有包含所述E的query,從query中所述E之前出現(xiàn)的實詞抽取候選需求限定詞Clm,構(gòu)成候選需求限定詞集合{dj ;S3、從大規(guī)模語料庫中抽取出包含屬于所述E的ei且包含所述{dj中至少一個候選需求限定詞的句子,從句子中選擇出現(xiàn)次數(shù)滿足第二出現(xiàn)次數(shù)要求的候選需求限定詞作為需求限定詞Cj,確定所抽取句子中Cj和ei構(gòu)成的詞語對〈C」,;S4、將〈C」,ei>存入實體類型E對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)庫EKBase。根據(jù)本發(fā)明一優(yōu)選實施例,步驟SI中所述已有語料包括:隨機抽取的網(wǎng)頁資源構(gòu)成的網(wǎng)頁語料庫,或者,利用已有實體平臺上的實體進行搜索后,從搜索結(jié)果中抽取排在前NI個的標題或網(wǎng)頁片段(snippets)構(gòu)成的網(wǎng)頁語料庫,所述NI為預設(shè)的正整數(shù)。根據(jù)本發(fā)明一優(yōu)選實施例,步驟SI中在所述命名實體識別之后進一步包括:對命名實體識別結(jié)果中的實體進行命名實體驗證,根據(jù)驗證結(jié)果將不屬于所述E的實體從命名實體識別結(jié)果中刪除。根據(jù)本發(fā)明一優(yōu)選實施例,在所述步驟S2中進一步包括:統(tǒng)計各候選需求限定詞在所述query中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)不滿足第一出現(xiàn)次數(shù)要求的候選需求限定詞從所述{dj中過濾掉。根據(jù)本發(fā)明一優(yōu)選實施例,所述步驟S3具體包括:針對各實體ei分別執(zhí)行以下步驟:S31、從大規(guī)模語料庫中抽取包含實體ei的句子;S32、從抽取的句子中利用命名實體驗證的方式確定實體ei屬于所述E的句子;S33、從所述步驟S32確定的句子中篩選出包含所述{dj中至少一個候選需求限定詞的句子;S34、統(tǒng)計所述{dj中各候選需求限定詞在所述步驟S33篩選出的句子中的出現(xiàn)次數(shù),選擇出現(xiàn)次數(shù)滿足第二出現(xiàn)次數(shù)要求的候選需求限定詞作為需求限定詞Cj,確定所述 <Cj, ei>o根據(jù)本發(fā)明一優(yōu)選實施例,該方法還包括:將冷門需求限定詞與所述E構(gòu)成的組合作為query進行搜索,抽取出搜索結(jié)果中的實體,將抽取出的實體與所述冷門需求限定詞構(gòu)成的詞語對添加到所述EKBase。根據(jù)本發(fā)明一優(yōu)選實施例,在所述步驟S3和所述步驟S4之間還包括以下步驟S5至S7:S5、利用所述步驟S3確定的〈C」,作為query進行搜索,得到包含Cj和Bi的句子;S6、利用命名實體驗證的方式從所述步驟S5得到的句子中抽取出^屬于實體類型E的句子Sk ;S7、對各句子Sk進行支持度評分,將支持度評分滿足預設(shè)評分要求的句子確定為支持句子,僅保留支持句子所包含的〈(^,ei> ;所述步驟S4中,進一步在所述EKBase中存入Cj和Gi共現(xiàn)的支持句子數(shù)量、含有ei的支持句子數(shù)量以及含有ei且ei屬于所述E的句子數(shù)量。根據(jù)本發(fā)明一優(yōu)選實施例,步驟S7中所述對各句子Sk進行支持度評分具體包括:S71、從各句子Sk中抽取各n元詞組n-gram,所述n為預設(shè)的一個或多個正整數(shù);S72、基于n-gram的出現(xiàn)次數(shù)或者包含實體Gi的次數(shù)確定各n-gram的支持度sup (n-gram);S73、將支持度大于預設(shè)支持度閾值的n-gram作為頻繁模式,基于句子中包含的頻繁模式的支持度對各句子Sk進行支持度評分。根據(jù)本發(fā)明一優(yōu)選實施例,在所述步驟S73中按照
權(quán)利要求
1.一種得到結(jié)構(gòu)化語義知識的方法,其特征在于,該方法包括: `51、對已有語料進行分詞處理和命名實體識別,抽取出實體類型E的實體ei; `52、從搜索日志中獲取所有包含所述E的搜索項query,從query中所述E之前出現(xiàn)的實詞抽取候選需求限定詞dm,構(gòu)成候選需求限定詞集合{dj ; `53、從大規(guī)模語料庫中抽取出包含屬于所述E的^且包含所述{dj中至少一個候選需求限定詞的句子,從句子中選擇出現(xiàn)次數(shù)滿足第二出現(xiàn)次數(shù)要求的候選需求限定詞作為需求限定詞Cj,確定所抽取句子中Cj和ei構(gòu)成的詞語對〈C」,ej); `54、將<Cpei>存入實體類型E對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)庫EKBase。
2.根據(jù)權(quán)利要 求1所述的方法,其特征在于,步驟SI中所述已有語料包括:隨機抽取的網(wǎng)頁資源構(gòu)成的網(wǎng)頁語料庫,或者,利用已有實體平臺上的實體進行搜索后,從搜索結(jié)果中抽取排在前NI個的標題或網(wǎng)頁片段snippets構(gòu)成的網(wǎng)頁語料庫,所述NI為預設(shè)的正整數(shù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,步驟SI中在所述命名實體識別之后進一步包括:對命名實體識別結(jié)果中的實體進行命名實體驗證,根據(jù)驗證結(jié)果將不屬于所述E的實體從命名實體識別結(jié)果中刪除。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟S2中進一步包括:統(tǒng)計各候選需求限定詞在所述query中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)不滿足第一出現(xiàn)次數(shù)要求的候選需求限定詞從所述{dj中過濾掉。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S3具體包括:針對各實體ei分別執(zhí)行以下步驟: `531、從大規(guī)模語料庫中抽取包含實體ei的句子; `532、從抽取的句子中利用命名實體驗證的方式確定實體ei屬于所述E的句子; `533、從所述步驟S32確定的句子中篩選出包含所述{dj中至少一個候選需求限定詞的句子; `534、統(tǒng)計所述{dj中各候選需求限定詞在所述步驟S33篩選出的句子中的出現(xiàn)次數(shù),選擇出現(xiàn)次數(shù)滿足第二出現(xiàn)次數(shù)要求的候選需求限定詞作為需求限定詞Cj,確定所述<Cj,ei〉。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,該方法還包括: 將冷門需求限定詞與所述E構(gòu)成的組合作為query進行搜索,抽取出搜索結(jié)果中的實體,將抽取出的實體與所述冷門需求限定詞構(gòu)成的詞語對添加到所述EKBase。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟S3和所述步驟S4之間還包括以下步驟S5至S7: ` 55、利用所述步驟S3確定的〈C」,作為query進行搜索,得到包含Cj和Bi的句子; `56、利用命名實體驗證的方式從所述步驟S5得到的句子中抽取出ei屬于實體類型E的句子Sk; `57、對各句子Sk進行支持度評分,將支持度評分滿足預設(shè)評分要求的句子確定為支持句子,僅保留支持句子所包含的〈(^,ei> ; 所述步驟S4中,進一步在所述EKBase中存入Cj和ei共現(xiàn)的支持句子數(shù)量、含有^的支持句子數(shù)量以及含有ei且ei屬于所述E的句子數(shù)量。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,步驟S7中所述對各句子Sk進行支持度評分具體包括: 571、從各句子Sk中抽取各n元詞組n-gram,所述n為預設(shè)的一個或多個正整數(shù); 572、基于n-gram的出現(xiàn)次數(shù)或者包含實體Gi的次數(shù)確定各n-gram的支持度sup (n-gram); 573、將支持度大于預設(shè)支持度閾值的n-gram作為頻繁模式,基于句子中包含的頻繁模式的支持度對各句子Sk進行支持度評分。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,在所述步驟S73中按照
10.根據(jù)權(quán)利要求3、5或7所述的方法,其特征在于,所述命名實體驗證具體包括:抽取實體的上下文,確定上下文中是否包含預設(shè)的所述E對應(yīng)的關(guān)鍵詞列表中的關(guān)鍵詞,如果是,則確定所述實體屬于所述E ;否則確定所述實體不屬于所述E。
11.一種搜索結(jié)構(gòu)化語義知識的方法,其特征在于,該方法包括: Al、獲取用戶輸入的包含需求限定詞c和實體類型E的搜索項query ; A2、在所述E對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)庫EKBase中搜索所述c對應(yīng)的所有實體e ; A3、將搜索得到的實體e包含在搜索結(jié)果中返回給所述用戶; 其中所述E對應(yīng)的EKBase是通過權(quán)利要求1至9任一權(quán)項所述的得到結(jié)構(gòu)化語義知識的方法建立的。
12.根據(jù)權(quán)利要求11所述的搜索結(jié)構(gòu)化語義知識的方法,其特征在于,如果所述需求限定詞c為一個,則從所述EKBase中搜索所述c對應(yīng)的所有實體e ; 如果所述需求限定詞c為多個,則從所述EKBase中搜索與各需求限定詞c均對應(yīng)的實體e。
13.根據(jù)權(quán)利要求11所述的搜索結(jié)構(gòu)化語義知識的方法,其特征在于,當所述E對應(yīng)的EKBase是通過權(quán)利要求7、8或9所述的搜索結(jié)構(gòu)化語義知識的方法建立時,在所述步驟A3中還包括:將搜索得到的實體e依據(jù)P (e I c,E)進行排序; 所述 P(e|c,E) = P(c|E,e) XP(E|e) XP(e),freqQL(e) 其中,
14.根據(jù)權(quán)利要求13所述的方法,其特征在于,在所述步驟A3中將排序結(jié)果在前N個的實體e包含在搜索結(jié)果中返回給所述用戶,N為預設(shè)的正整數(shù)。
15.一種搜索結(jié)構(gòu)化語義知識的裝置,其特征在于,該裝置包括: 實體抽取單元,用于對已有語料進行分詞處理和命名實體識別,抽取出實體類型E的實體ei ; 候選集合確定單元,用于從搜索日志中獲取所有包含所述E的搜索項query,從query中所述E之前出現(xiàn)的實詞抽取候選需求限定詞dm,構(gòu)成候選需求限定詞集合{dj ; 詞語對確定單元,用于從大規(guī)模語料庫中抽取出包含屬于所述E的ei且包含所述{dj中至少一個候選需求限定詞的句子,從這些句子中選擇出現(xiàn)次數(shù)滿足第二出現(xiàn)次數(shù)要求的候選需求限定詞作為需求限定詞Cp確定所抽取句子中和ei構(gòu)成的詞語對〈(^,e,); 數(shù)據(jù)庫形成單元,用于將〈h,e,)存入實體類型E對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)庫EKBase。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述已有語料包括:隨機抽取的網(wǎng)頁資源構(gòu)成的網(wǎng)頁語料庫,或者,利用已有實體平臺上的實體進行搜索后,從搜索結(jié)果中抽取排在前NI個的標題或網(wǎng)頁片段snippets構(gòu)成的網(wǎng)頁語料庫,所述NI為預設(shè)的正整數(shù)。
17.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述實體抽取單元還用于對命名實體識別結(jié)果中的實體進行命名實體驗證,根據(jù)驗證結(jié)果將不屬于所述E的實體從命名實體識別結(jié)果中刪除。
18.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述候選集合確定單元還用于統(tǒng)計各候選需求限定詞在所述query中的出現(xiàn)次數(shù),將出現(xiàn)次數(shù)不滿足第一出現(xiàn)次數(shù)要求的候選需求限定詞從所述{dj中過濾掉。
19.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述詞語對確定單元具體包括: 句子抽取子單元,用于從大規(guī)模語料庫中抽取包含實體ei的句子; 句子確定子單元,用于從所述句子抽取子單元抽取的句子中利用命名實體驗證的方式確定實體ei屬于所述E的句子; 句子篩選子單元,用于從所述句子確定子單元確定的句子中篩選出包含所述{dj中至少一個候選需求限定詞的句子; 詞語對確定子單元,用于統(tǒng)計所述{dj中各候選需求限定詞在所述句子篩選子單元篩選出的句子中的出現(xiàn)次數(shù),選擇出現(xiàn)次數(shù)滿足第二出現(xiàn)次數(shù)要求的候選需求限定詞作為需求限定詞Cj,確定所述〈C」,e^o
20.根據(jù)權(quán)利要求15所述的裝置,其特征在于,該裝置還包括: 補充添加單元,用于將冷門需求限定詞與所述E構(gòu)成的組合作為query進行搜索,抽取出搜索結(jié)果中的實體,將抽取出的實體與所述冷門需求限定詞構(gòu)成的詞語對添加到所述EKBase0
21.根據(jù)權(quán)利要求15所述的裝置,其特征在于,該裝置還包括: 句子擴展單元,用于利用所述詞語對確定單元確定的〈q,e,)作為query進行搜索,得到包含h和ei的句子; 句子抽取單元,用于利用命名實體驗證的方式從所述句子擴展單元得到的句子中抽取mei屬于實體類型E的句子Sk; 支持度評分單元,用于對各句子Sk進行支持度評分,將支持度評分滿足預設(shè)評分要求的句子確定為支持句子,僅保留支持句子所包含的〈Cp ei>,并提供給所述數(shù)據(jù)庫形成單元; 所述數(shù)據(jù)庫形成單元將所述支持度評分單元提供的〈Cp ei>存入所述EKBase,并在所述EKBase中存入Cj和&共現(xiàn)的支持句子數(shù)量、含有ei的支持句子數(shù)量以及含有ei且&屬于所述E的句子數(shù)量。
22.根據(jù)權(quán)利要求21所述的裝置,其特征在于,所述支持度評分單元具體包括: 詞組抽取子單元,用于從各句子Sk中抽取各n元詞組n-gram,所述n為預設(shè)的一個或多個正整數(shù); 第一計算子單元,用于基于n-gram的出現(xiàn)次數(shù)或者包含實體Gi的次數(shù)確定各n-gram的支持度sup (n-gram); 第二計算子單元,用于將支持度大于預設(shè)支持度閾值的n-gram作為頻繁模式,基于句子中包含的頻繁模式的支持度對各句子Sk進行支持度評分。
23.根據(jù)權(quán)利要求22所述的裝置,其特征在于,所述第二計算子單元按照Score(Sk)= 士全Pn(Sk)為句子Sk進行支持度評分;n=l sup(n-gram) n-grameSk 其中,P M ) = n-g rameFp-,N為選取的n的個數(shù),F(xiàn)P為屬于頻繁模式的n_gram n ksup(n-gram) n-grameSk隹A 口 O
24.根據(jù)權(quán)利要求17、19或21所述的裝置,其特征在于,所述命名實體驗證具體包括:抽取實體的上下文,確定上下文中是否包含預設(shè)的所述E對應(yīng)的關(guān)鍵詞列表中的關(guān)鍵詞,如果是,則確定所述實體屬于所述E ;否則確定所述實體不屬于所述E。
25.一種搜索結(jié)構(gòu)化語義知識的裝置,其特征在于,該裝置包括: 搜索項獲取單元,用于獲取用戶輸入的包含需求限定詞c和實體類型E的搜索項query ; 數(shù)據(jù)庫搜索單元,用于在所述E對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)庫EKBase中搜索所述c對應(yīng)的所有實體e ; 結(jié)果發(fā)送單元,用于將所述數(shù)據(jù)庫搜索單元搜索得到的實體e包含在搜索結(jié)果中返回給所述用戶; 其中所述E對應(yīng)的EKBase是通過權(quán)利要求15至23任一權(quán)項所述的得到結(jié)構(gòu)化語義知識的裝置建立的。
26.根據(jù)權(quán)利要求25所述的搜索結(jié)構(gòu)化語義知識的裝置,其特征在于,如果所述需求限定詞c為一個,則所述數(shù)據(jù)庫搜索單元從所述EKBase中搜索所述c對應(yīng)的所有實體e ; 如果所述需求限定詞c為多個,則所述數(shù)據(jù)庫搜索單元從所述EKBase中搜索與各需求限定詞c均對應(yīng)的實體e。
27.根據(jù)權(quán)利要求25所述的搜索結(jié)構(gòu)化語義知識的裝置,其特征在于,當所述E對應(yīng)的EKBase是通過權(quán)利要求21、22或23所述的得到結(jié)構(gòu)化語義知識的裝置建立時,該裝置還包括:實體排序單元,用于將所述數(shù)據(jù)庫搜索單元搜索得到的實體e依據(jù)P(e|c,E)進行排序;所述 P (e I c,E) = P(c|E,e) XP(E|e) XP (e), 其中,
28.根據(jù)權(quán)利要求27所述的搜索結(jié)構(gòu)化語義知識的裝置,其特征在于,所述結(jié)果發(fā)送單元將排序結(jié)果排在前N個的實體e包含在搜索結(jié)果中返回給所述用戶,N為預設(shè)的正整數(shù)。
全文摘要
本發(fā)明提供了一種得到和搜索結(jié)構(gòu)化語義知識的方法及對應(yīng)裝置,從已有語料中抽取出實體類型E的實體ei;從搜索日志中獲取所有包含E的搜索項(query),從query中E之前出現(xiàn)的實詞抽取候選需求限定詞dm,構(gòu)成候選需求限定詞集合{dm};從大規(guī)模語料庫中抽取出包含屬于E的ei且包含{dm}中至少一個候選需求限定詞的句子,從句子中選擇出現(xiàn)次數(shù)滿足第二出現(xiàn)次數(shù)要求的候選需求限定詞作為需求限定詞cj,確定所抽取句子中cj和ei構(gòu)成的詞語對<cj,ei>;將<cj,ei>存入實體類型E對應(yīng)的結(jié)構(gòu)化數(shù)據(jù)庫。獲取到用戶輸入的包含需求限定詞c和實體類型E的query時,從所述EKBase中搜索所述c對應(yīng)的所有實體e并包含在搜索結(jié)果中返回給用戶。
文檔編號G06F17/30GK103186556SQ20111044792
公開日2013年7月3日 申請日期2011年12月28日 優(yōu)先權(quán)日2011年12月28日
發(fā)明者趙世奇, 方高林, 王海峰 申請人:北京百度網(wǎng)訊科技有限公司