專利名稱:一種構(gòu)建知識庫的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本申請涉及計算機及通信領(lǐng)域,特別是涉及構(gòu)建知識庫的方法及裝置。
背景技術(shù):
計算機和互聯(lián)網(wǎng)技術(shù)已被廣泛應(yīng)用,資源共享是其主要特點。如何從巨大的信息 資源中搜索到自身需要的信息,是用戶普遍關(guān)心的問題。因此,信息搜索技術(shù)應(yīng)運而生。主要的搜索技術(shù)之一是關(guān)鍵詞搜索。用戶在搜索欄中輸入關(guān)鍵詞,搜索引擎根據(jù) 該關(guān)鍵詞進行搜索,盡可能的搜索出所有包含該關(guān)鍵詞的網(wǎng)頁。然而,一個詞本身有多種含 義,并且一個詞在不同行業(yè)不同領(lǐng)域里也可能有多種解釋或應(yīng)用,可能大多數(shù)的含義對搜 索用戶來說都屬于干擾項,基于這些含義的網(wǎng)頁對該搜索用戶來說均為無用網(wǎng)頁,使得搜 索結(jié)果不理想。知網(wǎng)的出現(xiàn)部分解決了該問題。在知網(wǎng)(How-net)中,一個詞條包含有多個概念,依據(jù)不同的概念來進行搜索,相 對于關(guān)鍵詞搜索來說,其搜索結(jié)果更準(zhǔn)確。但是,目前的知網(wǎng)是由人工建立和整理的,通常只覆蓋到高頻內(nèi)容,覆蓋的網(wǎng)絡(luò)內(nèi) 容有限。并且,隨著網(wǎng)絡(luò)的發(fā)展,信息量成幾何級數(shù)增長,人工更新知網(wǎng)的速度遠遠低于信 息量的增長速度,導(dǎo)致搜索結(jié)果不理想。
發(fā)明內(nèi)容
本申請實施例提供一種構(gòu)建知識庫的方法及裝置,用于實現(xiàn)知識庫的自動生成, 并且提高知識庫的準(zhǔn)確度。一種構(gòu)建知識庫的方法,包括以下步驟計算機設(shè)備中的基礎(chǔ)數(shù)據(jù)處理層獲得網(wǎng)頁中的句子;計算機設(shè)備中的挖掘?qū)訉渥舆M行分詞;挖掘?qū)訉⒅R庫中第一類別對應(yīng)的預(yù)設(shè)的標(biāo)志詞與分詞后得到的詞進行匹配;挖掘?qū)釉谥辽儆幸粋€分詞后得到的詞匹配成功的情況下,將句子中與匹配成功的 詞相鄰的未知字符串作為第一條目添加到第一類別中;挖掘?qū)赢?dāng)句子中的詞與知識庫中第二類別下的第二條目匹配時,判斷第一類別與 第二類別之間是否已建立關(guān)系,在建立有關(guān)系的情況下,為第一條目與第二條目建立關(guān)系。一種用于構(gòu)建知識庫的計算機設(shè)備,包括處理模塊,用于獲得網(wǎng)頁中的句子;挖掘模塊,用于對句子進行分詞,并將知識庫中第一類別對應(yīng)的標(biāo)志詞與分詞后 得到的詞進行匹配,在至少有一個分詞后得到的詞匹配成功的情況下,將句子中與匹配成 功的詞相鄰的未知字符串作為第一條目添加到第一類別中,以及當(dāng)句子中的詞與知識庫中 第二類別下的第二條目匹配時,判斷第一類別與第二類別之間是否已建立關(guān)系,在建立有 關(guān)系的情況下,為第一條目與第二條目建立關(guān)系。本申請實施例提供一種搜索信息的方法,用于為用戶搜索到更準(zhǔn)確的信息,該方
5法包括以下步驟根據(jù)用戶輸入的搜索詞,獲得與搜索詞匹配的標(biāo)簽;根據(jù)匹配的標(biāo)簽獲得與該標(biāo)簽對應(yīng)的網(wǎng)頁;將獲得的網(wǎng)頁或網(wǎng)頁的鏈接地址發(fā)送給用戶;其中,標(biāo)簽是依據(jù)網(wǎng)頁的關(guān)鍵詞和知識庫中與關(guān)鍵詞有關(guān)系的條目獲得的。一種搜索信息的方法,包括以下步驟利用知識庫中的條目對用戶輸入的搜索詞進行分詞處理;將分詞后得到的詞與知識庫中的條目進行匹配,并確定匹配成功的條目;通過知識庫獲得與匹配成功的條目有關(guān)系的條目;根據(jù)有關(guān)系的條目更新用戶輸入的搜索詞;根據(jù)更新后的搜索詞進行搜索。一種搜索引擎,包括第一查詢模塊,用于根據(jù)用戶輸入的搜索詞,獲得與搜索詞匹配的標(biāo)簽;第二查詢模塊,用于根據(jù)匹配的標(biāo)簽獲得與該標(biāo)簽對應(yīng)的網(wǎng)頁;接口模塊,用于將獲得的網(wǎng)頁或網(wǎng)頁的鏈接地址發(fā)送給用戶;標(biāo)簽生成模塊,用于依據(jù)網(wǎng)頁的關(guān)鍵詞和知識庫中與關(guān)鍵詞有關(guān)系的條目,生成 與該網(wǎng)頁對應(yīng)的標(biāo)簽。一種搜索引擎,包括分詞模塊,用于利用知識庫中的條目對用戶輸入的搜索詞進行分詞處理;匹配模塊,用于將分詞后得到的詞與知識庫中的條目進行匹配,并確定匹配成功 的條目;查詢模塊,用于通過知識庫獲得與匹配成功的條目有關(guān)系的條目;更新模塊,用于根據(jù)有關(guān)系的條目更新用戶輸入的搜索詞;搜索模塊,用于根據(jù)更新后的搜索詞進行搜索。本申請實施例將句子中的詞與知識庫中的標(biāo)志詞進行匹配,根據(jù)匹配成功的標(biāo)志 詞確定未知詞在知識庫中對應(yīng)的類別,并作為該類別下的條目,以及根據(jù)類別之間的關(guān)系, 為在句子中成對出現(xiàn)的條目建立關(guān)系,從而實現(xiàn)了知識庫的更新。
圖1A為本申請實施例中計算機設(shè)備的示意圖;圖1B為本申請實施例中網(wǎng)絡(luò)系統(tǒng)的結(jié)構(gòu)圖;圖1C為本申請實施例中構(gòu)建知識庫的主要方法流程圖;圖2為本申請實施例中構(gòu)建知識庫的詳細方法流程圖;圖3為本申請實施例中分析網(wǎng)頁意圖時搜索信息的方法流程圖;圖4為本申請實施例中分析用戶意圖時搜索信息的方法流程圖;圖5為本申請實施例中計算機設(shè)備的結(jié)構(gòu)圖;圖6為本申請實施例中分析網(wǎng)頁意圖時搜索引擎的結(jié)構(gòu)圖;圖7為本申請實施例中分析用戶意圖時搜索引擎的結(jié)構(gòu)圖。
具體實施例方式本申請實施例通過對網(wǎng)頁中成對出現(xiàn)的詞進行分析,來將網(wǎng)頁中的詞添加到知識 庫的類別中,作為類別下的條目,以及根據(jù)類別間的關(guān)系為成對出現(xiàn)的條目建立關(guān)系,從而 實現(xiàn)了知識庫的自動構(gòu)建,節(jié)省了人力資源。本申請實施例中的知識庫包括一個或多個類別,類別對應(yīng)條目和標(biāo)志詞,一個條 目可以對應(yīng)一個或多個類別,一個條目在多個類別下可以有不同的權(quán)重。條目還可以對應(yīng) 有屬性。并且,類別之間可能建立有關(guān)系,條目之間也可能存在關(guān)系。例如,名為產(chǎn)品的類 別對應(yīng)的條目有手機,產(chǎn)品類對應(yīng)的標(biāo)志詞可能有出售、型號、品牌、功能等,手機的屬性如 功能、尺寸、電池型號等。知識庫中的類別、類別對應(yīng)的標(biāo)志詞和類別之間的關(guān)系均為預(yù)先 設(shè)置的,在知識庫建立或更新過程中,不斷的向知識庫中添加條目、條目之間的關(guān)系和條目 的屬性等。表1、條目與類別的對應(yīng)關(guān)系的實例 表2、條目與屬性的對應(yīng)關(guān)系的實例 表3、條目之間的關(guān)系的實例 表4、類別之間的關(guān)系的實例
表5、類別與標(biāo)志詞的對應(yīng)關(guān)系的實例 表5中僅給出了 “產(chǎn)品”類別的標(biāo)志詞“出售”,還可能有“型號”、“牌”等標(biāo)志詞。 “影視”類別的標(biāo)志詞如“導(dǎo)演”、“主演”和“發(fā)行”等。各類別對應(yīng)的標(biāo)志詞均是根據(jù)各類 別的特點預(yù)先設(shè)置的??梢圆捎梦谋疚臋n、表格文檔、數(shù)據(jù)庫等形式存儲表1-5。并且表1-5只是提供一 種實例,可以在不改變其關(guān)系的情況下任意組合或拆分。本實施例中由基礎(chǔ)數(shù)據(jù)處理層和挖掘?qū)樱约罢蠈雍蛻?yīng)用層來實現(xiàn)知識庫的構(gòu) 建,所述四個層可以位于一個計算機設(shè)備內(nèi),參見圖1A所示;也可以分別位于不同的計算 機設(shè)備內(nèi),該不同的計算機設(shè)備可以是服務(wù)器或客戶端,分別位于不同的計算機設(shè)備內(nèi),該 不同的計算機設(shè)備可以是服務(wù)器或客戶端,并且可構(gòu)成一網(wǎng)絡(luò)系統(tǒng),參見圖1B所示。例如, 基礎(chǔ)數(shù)據(jù)處理層位于客戶端11內(nèi),挖掘?qū)游挥诜?wù)器12內(nèi),整合層可以位于服務(wù)器12或 服務(wù)器13內(nèi),應(yīng)用層可位于客戶端14內(nèi)。客戶端11、服務(wù)器12、服務(wù)器13和客戶端14均 可以有多個?;A(chǔ)數(shù)據(jù)處理層用于獲得網(wǎng)頁中的句子。網(wǎng)頁中的句子可以是網(wǎng)頁的文本內(nèi)容中 的句子。挖掘?qū)佑糜趯渥舆M行分詞,并將知識庫中第一類別對應(yīng)的預(yù)設(shè)的標(biāo)志詞與分詞 后得到的詞進行匹配,在至少有一個分詞后得到的詞匹配成功的情況下,將句子中與匹配 成功的詞相鄰的未知字符串作為第一條目添加到第一類別中,當(dāng)句子中的詞與知識庫中第 二類別下的第二條目匹配時,判斷第一類別與第二類別之間是否已建立關(guān)系,在建立有關(guān) 系的情況下,為第一條目與第二條目建立關(guān)系,即將第二條目加入第一條目對應(yīng)的關(guān)系條 目中,可進一步將第一條目加入第二條目對應(yīng)的關(guān)系條目中。其中,第一類別和第二類別可 能是任意兩個類別,這里為表述方便并區(qū)分兩個類別,故稱第一類別和第二類。同理,第一 條目和第二條目可能是任意兩個條目。計算機設(shè)備還可包括整合層和應(yīng)用層。整合層用于將挖掘?qū)痈鶕?jù)每個類別生成的 結(jié)果文件整合為一個結(jié)果文件。應(yīng)用層用于提供應(yīng)用。例如,挖掘?qū)俞槍︻悇e1、類別2和類別3分別得到下面3個結(jié)果文件 整合層將3個結(jié)果文件整合并得到一個結(jié)果文件,該一個結(jié)果文件如表6所示 其中,0表示條目與類別之間沒有對應(yīng)關(guān)系。參見圖1C,本實施例中構(gòu)建知識庫的主要方法流程如下步驟101 計算機設(shè)備中的基礎(chǔ)數(shù)據(jù)處理層獲得網(wǎng)頁中的句子。步驟102 計算機設(shè)備中的挖掘?qū)訉渥舆M行分詞。步驟103 挖掘?qū)訉⒅R庫中第一類別對應(yīng)的預(yù)設(shè)的標(biāo)志詞與分詞后得到的詞進 行匹配。在知識庫的建立之初需要預(yù)先設(shè)置類別,以及類別下對應(yīng)的標(biāo)志詞,在知識庫的 不斷更新過程中標(biāo)志詞會隨著特定條目的添加而不斷更新。步驟104 挖掘?qū)釉谥辽儆幸粋€分詞后得到的詞匹配成功的情況下,將句子中與 匹配成功的詞相鄰的未知字符串作為第一條目添加到第一類別中。步驟105 挖掘?qū)赢?dāng)句子中的詞與知識庫中第二類別下的第二條目匹配時,判斷 第一類別與第二類別之間是否已建立關(guān)系,在建立有關(guān)系的情況下,為第一條目與第二條 目建立關(guān)系。本實施例中構(gòu)建知識庫的方法也可用于更新知識庫,周期性重復(fù)本實施例即可。參見圖2,本實施例中構(gòu)建知識庫的詳細方法流程如下步驟201 基礎(chǔ)數(shù)據(jù)處理層獲得網(wǎng)頁中的句子,尤其是獲得單句或短句,并統(tǒng)計句 子出現(xiàn)的次數(shù),即統(tǒng)計相同句子的個數(shù)。可預(yù)先搜集并保存網(wǎng)頁中的文字信息,然后根據(jù)標(biāo) 點符號從文字信息中獲得句子。句子包括單句、短句和長句。單句是指句子前面是句號、問 號、感嘆號,同時以句號、問號、感嘆號結(jié)尾,句子中間沒有別的標(biāo)點符號的句子。短句是指 以逗號、分號結(jié)尾,中間沒有別的標(biāo)點符號的句子。長句是指句子前面是句號、問號、感嘆 號,同時以句號、問號、感嘆號結(jié)尾,中間有一個或多個逗號、分號的句子。搜索到的句子為 長句時,根據(jù)句子的標(biāo)點符號將長句劃分為多個短句。由于長句較長,內(nèi)容較多較復(fù)雜,將 其劃分成短句后更容易分析,并且得到的結(jié)果較準(zhǔn)確。例如,搜索到的句子為“本店出售AA牌BB1型號的手機”。步驟202 挖掘?qū)硬捎梅衷~系統(tǒng)對獲得的句子進行分詞。例如對“本店出售AA牌 BB1型號的手機”分詞后得到“本店、出售、AA、牌、BB1、型號、手機”??蓪⒃擃悇e對應(yīng)的標(biāo) 志詞加入分詞系統(tǒng),采用該分詞系統(tǒng)進行分詞,不容易將完整詞分碎。例如,品牌“諾基亞”, 當(dāng)采用普通的分詞系統(tǒng),普通的分詞系統(tǒng)只包括少量的基本詞匯,通常不包括新生的外來 語或音譯詞等。當(dāng)有普通的分詞系統(tǒng)無法匹配到的詞時,普通的分詞系統(tǒng)會將未知詞以字 為單位劃分,則可能會將“諾基亞”分為“諾、基、亞”,如果將“諾基亞”加入分詞系統(tǒng)后,在 分詞過程中可以對“諾基亞”匹配成功,因此分得“諾基亞”這一完整的詞。步驟203 挖掘?qū)訉⒅R庫中第一類別對應(yīng)的標(biāo)志詞與分詞后得到的詞進行匹 配。有一個標(biāo)志詞與句子中的一個詞匹配一致,便認為對該句子的匹配是成功的,保留匹配 成功的句子。對于第一類別來說,丟棄未匹配成功的句子。未匹配成功的句子可以在根據(jù) 其它類別的標(biāo)志詞進行匹配時再使用。步驟204 挖掘?qū)优袛嗥ヅ涑晒Φ木渥又惺欠裼兄R庫未包括的未知詞,若有,則 繼續(xù)步驟205,否則結(jié)束對該句子的流程,還可繼續(xù)判斷其它匹配成功的句子中是否有知識 庫未包括的未知詞,如果均不包括未知詞,還可將其它類別對應(yīng)的標(biāo)志詞與分詞后得到的 詞進行匹配,即重復(fù)步驟203。步驟205 挖掘?qū)訉⒕渥又信c匹配成功的詞相鄰的未知字符串作為第一條目添加 到第一類別中。未知字符串可能包括多個未知詞。例如,句子為新片滿城盡帶黃金甲,分詞 后得到新/片/滿/城/盡/帶/黃金/甲,片為匹配一致的標(biāo)志詞,滿/城/盡/帶/黃 金/甲均為未知詞,滿城盡帶黃金甲即為與片相鄰的未知字符串,得到了預(yù)期的獨立且完 整的詞。步驟206 挖掘?qū)訉⒌谝粭l目加入分詞系統(tǒng),以更新分詞系統(tǒng)。更新后的分詞系統(tǒng) 不容易將詞分碎,例如再遇到滿城盡帶黃金甲時,將得到一個詞“滿城盡帶黃金甲”,不會再
分成滿/城/盡/帶/黃金/甲。步驟207 挖掘?qū)痈鶕?jù)第一條目和相鄰的標(biāo)志詞所在的句子出現(xiàn)的次數(shù),為第一 條目設(shè)置在第一類別下的權(quán)重。例如,對獲得到的句子的出現(xiàn)頻率進行統(tǒng)計,第一條目BB1 和標(biāo)志詞“型號”所在的句子1的出現(xiàn)次數(shù)是1000,所在的句子2的出現(xiàn)次數(shù)是100,所在 的句子3的出現(xiàn)次數(shù)是10,則權(quán)重為€(1000)+€(100)+€(10),其中€為句子次數(shù)變換為權(quán) 重的函數(shù),比如以10為底數(shù)的對數(shù)函數(shù)。步驟208 挖掘?qū)荧@得第一條目和第二類別下的第二條目所在的句子出現(xiàn)的次 數(shù)。其中,第一類別與第二類別之間已建立關(guān)系。步驟209 挖掘?qū)赢?dāng)該次數(shù)超過預(yù)設(shè)的關(guān)系閾值時,為第一條目與第二條目建立 關(guān)系。還可重復(fù)步驟208,以便為第一條目建立更多的關(guān)系。通過該關(guān)系閾值可過濾掉某些 因筆誤引起的錯誤關(guān)系。例如,預(yù)先為類別型號和類別品牌建立了關(guān)系,則可為BB1和AA 建立關(guān)系。其中,步驟206、207和208是三個獨立的過程,無嚴(yán)格的執(zhí)行先后,也可同時進行。知識庫包括普通詞體系和實體詞體系;標(biāo)志詞包括實體詞體系中類別對應(yīng)的索引 詞和普通詞體系中類別對應(yīng)的種子詞。普通詞體系包括的條目大多為常規(guī)的,不經(jīng)常變化 的詞,如地名。實體詞體系包括的條目大多為更新較頻繁的詞,如人名和影視名等。普通詞體系與實體詞體系的區(qū)別在于包括的類別不同。實體詞體系中的索引詞不屬于對應(yīng)類別下 的條目,而普通詞體系中的種子詞屬于對應(yīng)類別下的條目。針對普通詞體系和實體詞體系 下的類別,可采用不同的更新周期,普通詞體系的更新周期可更長一些。普通詞體系和實體 詞體系如表7和表8所示
表7、普通詞體系的實例 表8、實體詞體系的實例 當(dāng)未知字符串作為第一條目添加到第一類別中時,同時未知字符串作為第一條目 添加到了第一類別所屬的體系(普通詞體系或?qū)嶓w詞體系)。當(dāng)?shù)谝活悇e為普通詞體系中 的類別時,還可將第一條目作為第一類別對應(yīng)的種子詞。挖掘?qū)舆€可以根據(jù)特征符號來確定未知字符串是否應(yīng)為第一類別下的條目。特征 符號包括括號、頓號和書名號,即與類別有關(guān)的標(biāo)點符號。例如,類別為影視時,基礎(chǔ)數(shù)據(jù)處 理層獲得帶有書名號的句子,然后挖掘?qū)訉⒂耙曨悇e對應(yīng)的索引詞與帶有書名號的句子中 的詞匹配,若匹配成功,則書名號中的詞(即未知字符串)為影視類別下的條目。括號中的 詞通常為專有名詞(即括號前的詞)的英文表達,頓號前后的詞通常屬于一個類別。挖掘?qū)舆€可為第一條目設(shè)置屬性。如一種實現(xiàn)方式是基礎(chǔ)數(shù)據(jù)處理層從網(wǎng)頁中 獲得表格。挖掘?qū)訉⒈砀裰卸啻闻c第一條目成對出現(xiàn)的詞作為第一條目的屬性。例如,第 一條目為某件產(chǎn)品,通常以表格的形式列出產(chǎn)品的產(chǎn)地、廠家、尺寸、型號(或品種)等。例 如,具體的廠家可能多種多樣,而“廠家”是與第一條目多次成對出現(xiàn)的,則“廠家”便為第 一條目的屬性。挖掘?qū)邮轻槍σ粋€一個類別進行分析的,因此針對每個類別生成一個結(jié)果文件。 該結(jié)果文件可包括類別、類別對應(yīng)的條目和條目在該類別下的權(quán)重。顯然知識庫通常不能 只有一個類別,則通過整合層將多個結(jié)果文件整合為一個結(jié)果文件。整合層還可以對條目對應(yīng)的類別進行過濾。挖掘?qū)邮且罁?jù)標(biāo)志詞與未知字符串的 成對出現(xiàn),將未知字符串作為條目加入到標(biāo)志詞對應(yīng)的類別中的。僅根據(jù)標(biāo)志詞與未知字 符串的成對出現(xiàn)次數(shù),可能無法過濾掉錯誤的出現(xiàn)。例如,有些生僻的詞可能出現(xiàn)的次數(shù)比 較少,但其是正確的,有些常用的詞出現(xiàn)的次數(shù)較多,但在某些句子里是錯誤的,可能是筆 誤。所以類似這樣的問題挖掘?qū)邮菬o法發(fā)現(xiàn)的,需要由整合層來過濾。整合層將一個條目 在對應(yīng)的多個類別中的權(quán)重進行比較。如果比較結(jié)果符合預(yù)設(shè)的條件,則將條目添加到這 些類別下是正確的,否則是錯誤的,需要取消條目與錯誤類別的對應(yīng)關(guān)系。具體的比較過程 有多種實現(xiàn)方式,如從條目對應(yīng)的權(quán)重中取除0以外的最小權(quán)重和最大權(quán)重,當(dāng)最小權(quán)重 與最大權(quán)重的比值低于預(yù)設(shè)的第一比例閾值時,將最小權(quán)重歸0,即刪除條目與最小權(quán)重對應(yīng)的類別之間的對應(yīng)關(guān)系。或者,從條目對應(yīng)的權(quán)重中取除0以外的最小權(quán)重,當(dāng)最小權(quán)重 與該條目的總權(quán)重(該條目的所有權(quán)重之和)的比值低于預(yù)設(shè)的第二比例閾值時,將最小 權(quán)重歸0,即刪除條目與最小權(quán)重對應(yīng)的類別之間的對應(yīng)關(guān)系。知識庫可以應(yīng)用在很多領(lǐng)域,如利用知識庫來分析用戶的意圖,為搜索引擎提供 服務(wù),以得到較佳的搜索結(jié)果;或者利用知識庫為用戶發(fā)布信息給出提示。則知識庫還包括 應(yīng)用層,搜索是應(yīng)用層中的一種應(yīng)用。下面首先介紹搜索信息的方法。參見圖3,本實施例中分析網(wǎng)頁意圖時搜索信息的方法流程如下步驟301 根據(jù)用戶輸入的搜索詞,獲得與搜索詞匹配的標(biāo)簽。步驟302 根據(jù)匹配的標(biāo)簽獲得與該標(biāo)簽對應(yīng)的網(wǎng)頁。步驟303 將獲得的網(wǎng)頁或網(wǎng)頁的鏈接地址發(fā)送給用戶,其中,標(biāo)簽是依據(jù)網(wǎng)頁的 關(guān)鍵詞和知識庫中與關(guān)鍵詞有關(guān)系的條目獲得的新的搜索詞。獲得標(biāo)簽的過程包括從網(wǎng)頁中提取出關(guān)鍵詞,將關(guān)鍵詞與知識庫中的條目進行 匹配,獲得與匹配成功的條目有關(guān)系的條目,根據(jù)關(guān)鍵詞和有關(guān)系的條目獲得標(biāo)簽。該標(biāo) 簽更準(zhǔn)確的反映了網(wǎng)頁的意圖,通過標(biāo)簽,用戶可搜索到較滿意的網(wǎng)頁。例如,網(wǎng)頁內(nèi)容為 “出售N78手機”,如果用戶輸入的搜索詞為“諾基亞”,則按照現(xiàn)有技術(shù)無法搜索到該網(wǎng)頁, 因為網(wǎng)頁中不包括“諾基亞”,也不包括“諾基亞”的近義詞。但,根據(jù)知識庫“N78”是“諾基 亞”品牌的一個型號,也許用戶需要的就是諾基亞N78手機,按照本實施例描述的方法便可 搜索到該網(wǎng)頁,搜索結(jié)果更準(zhǔn)確。參見圖4,本實施例中分析用戶意圖時搜索信息的方法流程如下步驟401 利用知識庫中的條目對用戶輸入的搜索詞進行分詞處理。本實施例中 用戶輸入的句子、詞或多個詞構(gòu)成的詞組均屬于用戶輸入的搜索詞。例如,用戶輸入的搜索 詞為“在哪兒能買到BB1”,分詞處理后得到在、哪兒、能、買到、BB1。步驟402 將分詞后得到的詞與知識庫中的條目進行匹配,并確定匹配成功的條 目。例如,“買到”為買賣意圖類別下的條目,“BB1”為型號類別下的條目。步驟403 通過知識庫獲得與匹配成功的條目有關(guān)系的條目。例如,與“BB1”有關(guān) 系的條目有“AA”和“手機”,“AA”屬于品牌類別,“手機”屬于產(chǎn)品類別。步驟404:根據(jù)有關(guān)系的條目更新用戶輸入的搜索詞。例如,更新后的關(guān)鍵詞為 “購買AA品牌的手機,型號是BB1”,即分析得到了用戶的意圖。步驟405 將網(wǎng)頁的關(guān)鍵詞與更新后的搜索詞進行匹配。特別地,將圖3中所述的 標(biāo)簽中的詞與更新后的搜索詞進行匹配,并確定匹配成功的標(biāo)簽對應(yīng)的網(wǎng)頁。步驟406 將匹配成功的網(wǎng)頁或網(wǎng)頁的鏈接地址發(fā)送給用戶,實現(xiàn)了信息搜索???以按照匹配程度由高到低的順序?qū)⒕W(wǎng)頁或網(wǎng)頁的鏈接地址發(fā)送給用戶。例如,相匹配的類 別最多,以及相匹配的條目最多,則認為是匹配程度最高。一個條目可能對應(yīng)多個類別,如蘋果,可以是水果類別下的條目,也可以是服裝品 牌下的條目,還可以是電子產(chǎn)品品牌下的條目,因此在更新搜索詞和更新網(wǎng)頁過程中,依據(jù) 不同的類別可能得到多個更新的搜索詞。需要從多個更新的搜索詞確定一個可能最接近用 戶意圖的搜索詞,則有多種具體實現(xiàn)方式。如確定一個條目以最高權(quán)重對應(yīng)的類別;在知識 庫中根據(jù)最高權(quán)重對應(yīng)的類別獲得與匹配成功的條目有關(guān)系的條目,根據(jù)有關(guān)系的條目更 新用戶輸入的搜索詞?;蛘撸瑢⒎衷~后得到的詞與該多個類別對應(yīng)的標(biāo)志詞進行匹配;通過知識庫根據(jù)匹配成功的標(biāo)志詞對應(yīng)的類別獲得與匹配成功的條目有關(guān)系的條目,根據(jù)有關(guān) 系的條目更新用戶輸入的搜索詞。知識庫還可以用于在用戶發(fā)布信息時給用戶輸出提示。例如,用戶需要發(fā)布出售 手機的信息,在產(chǎn)品欄輸入“手機”后,將“手機”與知識庫中的條目進行匹配,在匹配成功 的情況下,向用戶輸出與“手機”有關(guān)系的條目和條目“手機”的屬性,用戶可通過點擊提示 的信息來實現(xiàn)在其它欄目中的輸入,簡化了操作流程,提高了用戶體驗。通過以上描述了解了構(gòu)建知識庫和利用知識庫進行信息搜索的實現(xiàn)過程,上述實 現(xiàn)過程可以由裝置實現(xiàn),下面對裝置進行介紹。參見圖5,在本實施例中,用于構(gòu)建知識庫的計算機設(shè)備中的各個層可由功能模塊 來實現(xiàn),因此計算機設(shè)備包括處理模塊501和挖掘模塊502?;A(chǔ)數(shù)據(jù)處理模塊501,即基礎(chǔ)數(shù)據(jù)處理層,用于獲得網(wǎng)頁中的句子。挖掘模塊502,即挖掘?qū)?,用于對句子進行分詞,并將知識庫中第一類別對應(yīng)的標(biāo) 志詞與分詞后得到的詞進行匹配,在至少有一個分詞后得到的詞匹配成功的情況下,將句 子中與匹配成功的詞相鄰的未知字符串作為第一條目添加到第一類別中,以及當(dāng)句子中的 詞與知識庫中第二類別下的第二條目匹配時,判斷第一類別與第二類別之間是否已建立關(guān) 系,在建立有關(guān)系的情況下,為第一條目與第二條目建立關(guān)系。挖掘模塊502還可以為條目 設(shè)置屬性,以及根據(jù)每個類別生成一個結(jié)果文件。計算機設(shè)備還包括整合模塊503(即整合層)和應(yīng)用模塊504(即應(yīng)用層)。計算機設(shè)備還包括整合模塊503(即整合層)和應(yīng)用模塊504(即應(yīng)用層)。整合模塊503用于將挖掘模塊502生成的多個結(jié)果文件整合為一個結(jié)果文件,并 對條目對應(yīng)的類別進行過濾。應(yīng)用模塊504用于提供各種應(yīng)用。搜索引擎相當(dāng)于應(yīng)用模塊504中的一個應(yīng)用單兀。參見圖6,本實施例中搜索引擎600包括第一查詢模塊601、第二查詢模塊602、接 口模塊603和標(biāo)簽生成模塊604。第一查詢模塊601用于根據(jù)用戶輸入的搜索詞,獲得與搜索詞匹配的標(biāo)簽;第二查詢模塊602用于根據(jù)匹配的標(biāo)簽獲得與該標(biāo)簽對應(yīng)的網(wǎng)頁;接口模塊603用于將獲得的網(wǎng)頁或網(wǎng)頁的鏈接地址發(fā)送給用戶;標(biāo)簽生成模塊604用于依據(jù)網(wǎng)頁的關(guān)鍵詞和知識庫中與關(guān)鍵詞有關(guān)系的條目,生 成與該網(wǎng)頁對應(yīng)的標(biāo)簽。參見圖7,本實施例中搜索引擎700包括分詞模塊701、匹配模塊702、查詢模塊 703、更新模塊704和搜索模塊705。分詞模塊701用于對用戶輸入的搜索詞進行分詞處理。分詞模塊701可依據(jù)知識 庫中的條目對用戶輸入的搜索詞進行分詞處理。匹配模塊702用于將分詞后得到的詞與知識庫中的條目進行匹配,并確定匹配成 功的條目。查詢模塊703用于通過知識庫獲得與匹配成功的條目有關(guān)系的條目。更新模塊704用于根據(jù)有關(guān)系的條目更新用戶輸入的搜索詞。搜索模塊705用于根據(jù)更新后的搜索詞進行搜索。搜索模塊705將網(wǎng)頁中的句子與更新后的關(guān)鍵詞進行匹配,將匹配成功的網(wǎng)頁或網(wǎng)頁的鏈接地址發(fā)送給用戶,可以按照 匹配程度由高到低的順序?qū)⒕W(wǎng)頁或網(wǎng)頁的鏈接地址發(fā)送給用戶。搜索引擎600與搜索引擎700可以是一個搜索引擎,即該搜索引擎包括了圖6和 圖7所示的全部功能。第一查詢模塊601和第二查詢模塊602相當(dāng)于搜索模塊705,即根據(jù) 更新后的搜索詞獲得與搜索詞匹配的標(biāo)簽,再根據(jù)匹配成功的標(biāo)簽獲得相應(yīng)的網(wǎng)頁,從而 實現(xiàn)了搜索網(wǎng)頁的過程。搜索引擎700也可包括接口模塊603,用于獲得用戶輸入的搜索 詞,以及將搜索到的網(wǎng)頁或網(wǎng)頁的鏈接地址發(fā)送給用戶。為了描述的方便,以上所述裝置的各部分以功能分為各種模塊分別描述。當(dāng)然,在 實施本申請時可以把各模塊的功能在同一個或多個軟件或硬件中實現(xiàn)。本申請實施例中計算機設(shè)備和搜索引擎及它們內(nèi)部的各模塊可以由軟件和/或 硬件實現(xiàn)。用于實現(xiàn)本申請實施例的軟件可以存儲于軟盤、硬盤、光盤和閃存等存儲介質(zhì)。 以及,本申請實施例的方法、知識庫和搜索引擎可以在網(wǎng)絡(luò)系統(tǒng)中的計算機上實施。本申請實施例將句子中的詞與知識庫中的標(biāo)志詞進行匹配,根據(jù)匹配成功的標(biāo)志 詞確定未知詞在知識庫中對應(yīng)的類別,并作為該類別下的條目,以及根據(jù)類別之間的關(guān)系, 為在句子中成對出現(xiàn)的條目建立關(guān)系,從而實現(xiàn)了知識庫的更新。本申請實施例還依據(jù)未 知詞與匹配成功的標(biāo)志詞成對出現(xiàn)的頻率為未知詞設(shè)置在對應(yīng)類別下的權(quán)重,以及通過網(wǎng) 頁表格中與未知詞成對出現(xiàn)的詞,為未知詞設(shè)置屬性,以便知識庫在各領(lǐng)域中提供更多的 信息。同時,本申請實施例利用知識庫對用戶輸入的搜索詞進行更新,以得到更貼近用戶意 圖的搜索詞,并根據(jù)更新后的搜索詞進行搜索,使得搜索結(jié)果更準(zhǔn)確。以及,本申請實施例 通過知識庫為網(wǎng)頁設(shè)置反映網(wǎng)頁主題的標(biāo)簽,得到網(wǎng)頁內(nèi)容的更準(zhǔn)確的表達意圖,將標(biāo)簽 與更新后的搜索詞進行匹配,可以獲得更為準(zhǔn)確的搜索結(jié)果。顯然,本領(lǐng)域的技術(shù)人員可以對本申請進行各種改動和變型而不脫離本申請的精 神和范圍。這樣,倘若對本申請的這些修改和變型屬于本申請權(quán)利要求及其等同技術(shù)的范 圍之內(nèi),則本申請也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
一種由計算機設(shè)備構(gòu)建知識庫的方法,其特征在于,包括以下步驟計算機設(shè)備中的基礎(chǔ)數(shù)據(jù)處理層獲得網(wǎng)頁中的句子;計算機設(shè)備中的挖掘?qū)訉渥舆M行分詞;挖掘?qū)訉⒅R庫中第一類別對應(yīng)的預(yù)設(shè)的標(biāo)志詞與分詞后得到的詞進行匹配;挖掘?qū)釉谥辽儆幸粋€分詞后得到的詞匹配成功的情況下,將句子中與匹配成功的詞相鄰的未知字符串作為第一條目添加到第一類別中;挖掘?qū)釉诰渥又械脑~與知識庫中第二類別下的第二條目匹配時,判斷第一類別與第二類別之間是否已建立關(guān)系,在建立有關(guān)系的情況下,為第一條目與第二條目建立關(guān)系。
2.如權(quán)利要求1所述的方法,其特征在于,基礎(chǔ)數(shù)據(jù)處理層獲得的網(wǎng)頁中的句子為長 句時,根據(jù)句子中的標(biāo)點符號將長句劃分為多個短句;挖掘?qū)訉渥舆M行分詞的步驟包括對單句或短句進行分詞。
3.如權(quán)利要求1所述的方法,其特征在于,還包括步驟 基礎(chǔ)數(shù)據(jù)處理層統(tǒng)計句子出現(xiàn)的次數(shù);挖掘?qū)痈鶕?jù)第一條目和相鄰的標(biāo)志詞所在的句子出現(xiàn)的次數(shù),為第一條目設(shè)置在第一 類別下的權(quán)重。
4.如權(quán)利要求1所述的方法,其特征在于,挖掘?qū)硬捎冒?biāo)志詞的分詞系統(tǒng)對句子 進行分詞。
5.如權(quán)利要求1所述的方法,其特征在于,知識庫包括普通詞體系和實體詞體系,普通 詞體系和實體詞體系分別包括不同的類別;標(biāo)志詞包括實體詞體系中類別對應(yīng)的索引詞和 普通詞體系中類別對應(yīng)的種子詞;當(dāng)未知字符串作為第一條目添加到第一類別中時,同時未知字符串作為第一條目添加 到了第一類別所屬的體系。
6.如權(quán)利要求5所述的方法,其特征在于,當(dāng)?shù)谝活悇e為普通詞體系中的類別時,所述 方法還包括步驟將第一條目作為第一類別對應(yīng)的種子詞。
7.如權(quán)利要求1所述的方法,其特征在于,挖掘?qū)訛榈谝粭l目與第二條目建立關(guān)系之 前,獲得第一條目與第二條目所在的句子出現(xiàn)的次數(shù),并當(dāng)該次數(shù)超過預(yù)設(shè)的關(guān)系閾值時, 為第一條目與第二條目建立關(guān)系。
8.如權(quán)利要求1至7中任一項所述的方法,其特征在于,還包括步驟 挖掘?qū)痈鶕?jù)每個類別及類別下的條目生成一個結(jié)果文件;整合層將多個結(jié)果文件整合為一個結(jié)果文件。
9.如權(quán)利要求8所述的方法,其特征在于,還包括步驟 基礎(chǔ)數(shù)據(jù)處理層統(tǒng)計句子出現(xiàn)的次數(shù);挖掘?qū)痈鶕?jù)第一條目和標(biāo)志詞所在的句子出現(xiàn)的次數(shù),為第一條目設(shè)置在第一類別下 的權(quán)重;整合層通過將條目在多個類別下的權(quán)重進行比較,來對條目對應(yīng)的類別進行過濾。
10.如權(quán)利要求1所述的方法,其特征在于,還包括步驟 基礎(chǔ)數(shù)據(jù)處理層從網(wǎng)頁中獲得表格;挖掘?qū)訉⒈砀裰卸啻闻c第一條目成對出現(xiàn)的詞作為第一條目的屬性。
11.如權(quán)利要求1所述的方法,其特征在于,基礎(chǔ)數(shù)據(jù)處理層獲得網(wǎng)頁中的句子的步驟包括基礎(chǔ)數(shù)據(jù)處理層獲得網(wǎng)頁中含有特征符號的句子。
12.一種搜索信息的方法,其特征在于,包括以下步驟 根據(jù)用戶輸入的搜索詞,獲得與搜索詞匹配的標(biāo)簽; 根據(jù)匹配的標(biāo)簽獲得與該標(biāo)簽對應(yīng)的網(wǎng)頁;將獲得的網(wǎng)頁或網(wǎng)頁的鏈接地址發(fā)送給用戶;其中,標(biāo)簽是依據(jù)網(wǎng)頁的關(guān)鍵詞和知識庫中與關(guān)鍵詞有關(guān)系的條目獲得的。
13.如權(quán)利要求12所述的方法,其特征在于,知識庫是通過以下步驟構(gòu)建的 基礎(chǔ)數(shù)據(jù)處理層獲得網(wǎng)頁中的句子;挖掘?qū)訉渥舆M行分詞;挖掘?qū)訉⒅R庫中第一類別對應(yīng)的預(yù)設(shè)的標(biāo)志詞與分詞后得到的詞進行匹配; 挖掘?qū)釉谥辽儆幸粋€分詞后得到的詞匹配成功的情況下,將句子中與匹配成功的詞相 鄰的未知字符串作為第一條目添加到第一類別中;挖掘?qū)赢?dāng)句子中的詞與知識庫中第二類別下的第二條目匹配時,判斷第一類別與第二 類別之間是否已建立關(guān)系,在建立有關(guān)系的情況下,為第一條目與第二條目建立關(guān)系。
14.一種搜索信息的方法,其特征在于,包括以下步驟 利用知識庫中的條目對用戶輸入的搜索詞進行分詞處理;將分詞后得到的詞與知識庫中的條目進行匹配,并確定匹配成功的條目; 通過知識庫獲得與匹配成功的條目有關(guān)系的條目; 根據(jù)有關(guān)系的條目更新用戶輸入的搜索詞; 根據(jù)更新后的搜索詞進行搜索。
15.如權(quán)利要求14所述的方法,其特征在于,知識庫是通過以下步驟構(gòu)建的 基礎(chǔ)數(shù)據(jù)處理層獲得網(wǎng)頁中的句子;挖掘?qū)訉渥舆M行分詞;挖掘?qū)訉⒅R庫中第一類別對應(yīng)的預(yù)設(shè)的標(biāo)志詞與分詞后得到的詞進行匹配; 挖掘?qū)釉谥辽儆幸粋€分詞后得到的詞匹配成功的情況下,將句子中與匹配成功的詞相 鄰的未知字符串作為第一條目添加到第一類別中;挖掘?qū)赢?dāng)句子中的詞與知識庫中第二類別下的第二條目匹配時,判斷第一類別與第二 類別之間是否已建立關(guān)系,在建立有關(guān)系的情況下,為第一條目與第二條目建立關(guān)系。
16.一種用于構(gòu)建知識庫的計算機設(shè)備,其特征在于,包括 基礎(chǔ)數(shù)據(jù)處理模塊,用于獲得網(wǎng)頁中的句子;挖掘模塊,用于對句子進行分詞,并將知識庫中第一類別對應(yīng)的預(yù)設(shè)的標(biāo)志詞與分詞 后得到的詞進行匹配,在至少有一個分詞后得到的詞匹配成功的情況下,將句子中與匹配 成功的詞相鄰的未知字符串作為第一條目添加到第一類別中,以及當(dāng)句子中的詞與知識庫 中第二類別下的第二條目匹配時,判斷第一類別與第二類別之間是否已建立關(guān)系,在建立 有關(guān)系的情況下,為第一條目與第二條目建立關(guān)系。
17.一種搜索引擎,其特征在于,包括第一查詢模塊,用于根據(jù)用戶輸入的搜索詞,獲得與搜索詞匹配的標(biāo)簽; 第二查詢模塊,用于根據(jù)匹配的標(biāo)簽獲得與該標(biāo)簽對應(yīng)的網(wǎng)頁; 接口模塊,用于將獲得的網(wǎng)頁或網(wǎng)頁的鏈接地址發(fā)送給用戶;標(biāo)簽生成模塊,用于依據(jù)網(wǎng)頁的關(guān)鍵詞和知識庫中與關(guān)鍵詞有關(guān)系的條目,生成與該 網(wǎng)頁對應(yīng)的標(biāo)簽。
18. 一種搜索引擎,其特征在于,包括分詞模塊,用于利用知識庫中的條目對用戶輸入的搜索詞進行分詞處理; 匹配模塊,用于將分詞后得到的詞與知識庫中的條目進行匹配,并確定匹配成功的條目;查詢模塊,用于通過知識庫獲得與匹配成功的條目有關(guān)系的條目; 更新模塊,用于根據(jù)有關(guān)系的條目更新用戶輸入的搜索詞; 搜索模塊,用于根據(jù)更新后的搜索詞進行搜索。
全文摘要
本申請公開了一種構(gòu)建知識庫的方法,用于實現(xiàn)知識庫的自動生成,并且提高知識庫的準(zhǔn)確度。所述方法包括計算機設(shè)備中的基礎(chǔ)數(shù)據(jù)處理層獲得網(wǎng)頁中的句子;計算機設(shè)備中的挖掘?qū)訉渥舆M行分詞;挖掘?qū)訉⒅R庫中第一類別對應(yīng)的預(yù)設(shè)的標(biāo)志詞與分詞后得到的詞進行匹配;挖掘?qū)釉谥辽儆幸粋€分詞后得到的詞匹配成功的情況下,將句子中與匹配成功的詞相鄰的未知字符串作為第一條目添加到第一類別中;挖掘?qū)赢?dāng)句子中的詞與知識庫中第二類別下的第二條目匹配時,判斷第一類別與第二類別之間是否已建立關(guān)系,在建立有關(guān)系的情況下,為第一條目與第二條目建立關(guān)系。本申請還公開了用于實現(xiàn)所述方法的裝置,以及公開了搜索信息的方法和搜索裝置。
文檔編號G06F17/30GK101876981SQ20091013620
公開日2010年11月3日 申請日期2009年4月29日 優(yōu)先權(quán)日2009年4月29日
發(fā)明者侯磊, 張勤, 秦吉勝, 陳維 申請人:阿里巴巴集團控股有限公司