專利名稱:一種關系化知識共享平臺及其實現(xiàn)方法
一種關系化知識共享平臺及其實現(xiàn)方法
技術領域:
本發(fā)明涉及網(wǎng)絡技術,特別涉及一種關系化知識共享平臺及其實現(xiàn)方法。背景技術:
隨著互聯(lián)網(wǎng)技術的發(fā)展,知識共享平臺服務于互聯(lián)網(wǎng)絡中業(yè)已廣泛應用。知識共 享平臺由大量用戶對各種詞條進行編輯,用以幫助有需要的人進行了解。目前,現(xiàn)有的知識 共享平臺是將某一詞條的全部詞條內(nèi)容以目錄形式統(tǒng)一呈現(xiàn)給用戶,用戶需要在眾多詞條 內(nèi)容中尋找自己想要的解釋。例如,當用戶想要了解周杰倫的專輯時,用戶只能通過輸入詞 條“周杰倫”來獲取與周杰倫相關的所有詞條內(nèi)容,再從詞條內(nèi)容中尋找周杰倫的專輯,導 致用戶的瀏覽體驗不佳。
發(fā)明內(nèi)容本發(fā)明實施例提供了一種關系化知識共享平臺及其實現(xiàn)方法,其通過對詞條、屬 性及屬性值進行關系化處理,可以根據(jù)用戶的查詢請求呈現(xiàn)關系化的查詢結(jié)果頁面,提高 了用戶的瀏覽體驗。本發(fā)明提供了一種關系化知識共享平臺的實現(xiàn)方法,包括a.獲取詞條以及與所 述詞條相關的原始語料;b.從所述原始語料中提取與所述詞條相關聯(lián)的至少一個屬性以 及對應的屬性值,以形成詞條屬性庫;c.獲取用戶的查詢請求;d.利用所述查詢請求在所 述詞條屬性庫中進行匹配;以及e.根據(jù)匹配結(jié)果輸出并進而呈現(xiàn)關系化查詢結(jié)果頁面。根據(jù)本發(fā)明之一優(yōu)選實施例,在所述步驟d中,若所述查詢請求與所述詞條相匹 配,則在所述步驟e中,在所述關系化查詢結(jié)果頁面中呈現(xiàn)所述詞條以及與所述詞條相關 聯(lián)的所述屬性。根據(jù)本發(fā)明之一優(yōu)選實施例,所述實現(xiàn)方法進一步包括f.獲取用戶對所述屬性 的操作請求,進一步根據(jù)所述操作請求在所述關系化查詢結(jié)果頁面中呈現(xiàn)與所述屬性對應 的所述屬性值。根據(jù)本發(fā)明之一優(yōu)選實施例,在所述步驟d中,若所述查詢請求與所述詞條及所 述屬性相匹配,則在所述步驟e中,在所述關系化查詢結(jié)果頁面中呈現(xiàn)與所述詞條以及所 述屬性對應的所述屬性值。根據(jù)本發(fā)明之一優(yōu)選實施例,在所述步驟d中,若所述查詢請求與所述屬性或所 述屬性值相匹配,則在所述步驟e中,在所述關系化查詢結(jié)果頁面中呈現(xiàn)與所述屬性或所 述屬性值相關聯(lián)的所述詞條。根據(jù)本發(fā)明之一優(yōu)選實施例,所述步驟b包括bl.獲取所述詞條的分類信息; b2.根據(jù)所述分類信息確定所述屬性;b3.根據(jù)所述屬性從所述原始語料中提取對應的屬 性值;b4.關聯(lián)所述詞條、所述屬性以及所述屬性值,以形成所述詞條屬性庫。根據(jù)本發(fā)明之一優(yōu)選實施例,所述步驟bl進一步包括bll.對所述原始語料進行 特征提取,以獲得多個原始語料特征;bl2.對所述多個原始語料特征進行權(quán)重計算,以分配對應的原始語料特征權(quán)重;bl3.對所述多個原始語料特征進行向量化,以形成原始語料 向量;bl4.獲取模型文件;bl5.通過所述原始語料向量計算所述原始語料與所述模型文件 的相似度;bl6.根據(jù)所述相似度對所述詞條進行分類,進而確定所述詞條的分類信息。根據(jù)本發(fā)明之一優(yōu)選實施例,所述步驟bl4進一步包括bl41.獲取訓練語料; bl42.對所述訓練語料進行特征提取,以獲得多個訓練語料特征;bl43.對所述多個訓練語 料特征進行權(quán)重計算,以分配對應的訓練語料特征權(quán)重;bl44.對所述多個訓練語料特征 進行向量化,以形成訓練語料向量;bl45.對所述訓練語料向量進行分類標注;bl46.對分 類標注后的所述訓練語料向量進行訓練,以形成所述模型文件。根據(jù)本發(fā)明之一優(yōu)選實施例,所述步驟b包括bl.獲取所述詞條的標簽信息; b2.根據(jù)所述標簽信息確定所述屬性;b3.根據(jù)所述屬性從所述原始語料中提取對應的屬 性值;b4.關聯(lián)所述詞條、所述屬性以及所述屬性值,以形成所述詞條屬性庫。本發(fā)明提供了一種關系化知識共享平臺,包括原始語料獲取模塊,獲取詞條以及 與所述詞條相關的原始語料;詞條屬性庫形成模塊,從所述原始語料中提取與所述詞條相 關聯(lián)的至少一個屬性以及對應的屬性值,以形成詞條屬性庫;輸入模塊,獲取用戶的查詢請 求;匹配模塊,利用所述查詢請求在所述詞條屬性庫中進行匹配;以及輸出模塊,根據(jù)匹配 結(jié)果輸出并進而呈現(xiàn)關系化查詢結(jié)果頁面。根據(jù)本發(fā)明之一優(yōu)選實施例,若所述匹配模塊判斷所述查詢請求與所述詞條相匹 配,則所述輸出模塊在所述關系化查詢結(jié)果頁面中呈現(xiàn)所述詞條以及與所述詞條相關聯(lián)的 所述屬性。根據(jù)本發(fā)明之一優(yōu)選實施例,所述輸入模塊進一步獲取用戶對所述屬性的操作請 求,所述輸出模塊進一步根據(jù)所述操作請求在所述關系化查詢結(jié)果頁面中呈現(xiàn)與所述屬性 對應的所述屬性值。根據(jù)本發(fā)明之一優(yōu)選實施例,若所述匹配模塊判斷所述查詢請求與所述詞條及所 述屬性相匹配,則所述輸出模塊在所述關系化查詢結(jié)果頁面中呈現(xiàn)與所述詞條以及所述屬 性對應的所述屬性值。根據(jù)本發(fā)明之一優(yōu)選實施例,若所述匹配模塊判斷所述查詢請求與所述屬性或所 述屬性值相匹配,則所述輸出模塊在所述關系化查詢結(jié)果頁面中呈現(xiàn)與所述屬性或所述屬 性值相關聯(lián)的所述詞條。根據(jù)本發(fā)明之一優(yōu)選實施例,所述詞條屬性庫形成模塊包括分類信息獲取模塊, 獲取所述詞條的分類信息;屬性確定模塊,根據(jù)所述分類信息確定所述屬性;屬性值提取 模塊,根據(jù)所述屬性從所述原始語料中提取對應的屬性值;關聯(lián)模塊,關聯(lián)所述詞條、所述 屬性以及所述屬性值,以形成所述詞條屬性庫。根據(jù)本發(fā)明之一優(yōu)選實施例,所述分類信息獲取模塊包括原始語料特征提取模 塊,對所述原始語料進行特征提取,以獲得多個原始語料特征;原始語料特征權(quán)重計算模 塊,對所述多個原始語料特征進行權(quán)重計算,以分配對應的原始語料特征權(quán)重;原始語料向 量化模塊,對所述多個原始語料特征進行向量化,以形成原始語料向量;模型文件獲取模 塊,獲取模型文件;相似度計算模塊,通過所述原始語料向量計算所述原始語料與所述模型 文件的相似度;分類模塊,根據(jù)所述相似度對所述詞條進行分類,進而確定所述詞條的分類 fn息ο
根據(jù)本發(fā)明之一優(yōu)選實施例,所述模型文件獲取模塊包括訓練語料獲取模塊,獲 取訓練語料;訓練語料特征提取模塊,對所述訓練語料進行特征提取,以獲得多個訓練語料 特征;訓練語料特征權(quán)重計算模塊,對所述多個訓練語料特征進行權(quán)重計算,以分配對應的 訓練語料特征權(quán)重;訓練語料向量化模塊,對所述多個訓練語料特征進行向量化,以形成訓 練語料向量;分類標注模塊,對所述訓練語料向量進行分類標注;訓練模塊,對分類標注后 的所述訓練語料向量進行訓練,以形成所述模型文件。根據(jù)本發(fā)明之一優(yōu)選實施例,所述詞條屬性庫形成模塊包括標簽信息獲取模塊, 獲取所述詞條的標簽信息;屬性確定模塊,根據(jù)所述標簽信息確定所述屬性;屬性值提取 模塊,根據(jù)所述屬性從所述原始語料中提取對應的屬性值;關聯(lián)模塊,關聯(lián)所述詞條、所述 屬性以及所述屬性值,以形成所述詞條屬性庫。通過上述所提供的技術方案,本發(fā)明提供了一種關系化知識共享平臺及其實現(xiàn)方 法,其通過對詞條、屬性及屬性值進行關系化處理,可以根據(jù)用戶的查詢請求呈現(xiàn)關系化的 查詢結(jié)果頁面,提高了用戶的瀏覽體驗。
圖1是本發(fā)明的關系化知識共享平臺的實現(xiàn)方法的流程示意圖;圖2是本發(fā)明的關系化知識共享平臺的關系化查詢結(jié)果頁面的第一示意圖;圖3是本發(fā)明的關系化知識共享平臺的關系化查詢結(jié)果頁面的第二示意圖;圖4是本發(fā)明的關系化知識共享平臺的關系化查詢結(jié)果頁面的第三示意圖;圖5是本發(fā)明的關系化知識共享平臺的詞條屬性庫形成方法的流程示意圖。圖6是本發(fā)明的關系化知識共享平臺的分類信息獲取方法的流程示意圖;圖7是本發(fā)明的關系化知識共享平臺的模型文件獲取方法的示意框圖;圖8是本發(fā)明的關系化知識共享平臺的示意框圖;圖9是本發(fā)明的關系化知識共享平臺的詞條屬性庫形成模塊的示意框圖;圖10是本發(fā)明的關系化知識共享平臺的分類信息獲取模塊的示意框圖;圖11是本發(fā)明的關系化知識共享平臺的模型文件獲取模塊的示意框圖。
具體實施方式為了使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面結(jié)合附圖和具體實施例對 本發(fā)明進行詳細描述。首先請參見圖1,圖1是本發(fā)明的關系化知識共享平臺的實現(xiàn)方法的流程示意圖。在步驟11中,獲取詞條以及與詞條相關的原始語料。在本步驟中,原始語料可以 是現(xiàn)有知識共享平臺(例如,百度百科)中存在的以目錄及段落方式按自然語言描述的詞 條內(nèi)容,也可以是以該詞條為關鍵詞利用搜索引擎從網(wǎng)絡中獲得的網(wǎng)頁資料。在步驟12中,從原始語料中提取與詞條相關聯(lián)的至少一個屬性以及對應的屬性 值,以形成詞條屬性庫。例如,針對詞條“周杰倫”,可以根據(jù)屬性“專輯”從原始語料提取出 周杰倫所出版的個人專輯的具體名稱作為屬性值,并可根據(jù)屬性“廣告代言”從原始語料提 取出周杰倫所代言的具體廣告作為屬性值。在下文中將結(jié)合具體實施例詳細描述詞條屬性 庫的具體形成方法。
在步驟13中,獲取用戶的查詢請求。在本步驟中,用戶可通過瀏覽器上的查詢框 輸入具體的查詢請求,例如“劉德華的生日是哪天”。在用戶輸入查詢請求后,通過點擊瀏覽 器上的查詢按鈕,進而將該查詢請求發(fā)送到關系化知識共享平臺。在步驟14中,利用查詢請求在詞條屬性庫中進行匹配。在本步驟中,首先對查詢 請求進行識別。具體識別過程可以包括分詞、過濾以及在關鍵字庫進行匹配等。其中,分 詞的作用是將查詢請求中的漢字序列切分成有意義的字詞,以便后續(xù)處理。具體分詞的方 法包括正向匹配分詞、反向匹配分詞、正向反向匹配分詞、基于全切分詞圖的分詞、最大熵 馬爾科夫模型分詞、最大熵分詞或條件隨機場分詞等。過濾的作用是去除標點符號、助詞等 無用信息。進行關鍵字庫匹配的作用是確定是否可以識別出主題詞和限制詞等。例如,如 果查詢請求為“劉德華的生日是哪天”,則通過上述步驟可以識別出主題詞“生日”和限制詞 “劉德華”。查詢請求的具體識別過程為本領域公知技術,在此不再贅述。隨后,利用識別出 來的主題詞和/或限制詞在詞條屬性庫中進行匹配。例如,利用“生日”和“劉德華”與詞 條屬性庫中的詞條、屬性和/或?qū)傩灾颠M行匹配,從而獲得匹配結(jié)果。在優(yōu)選實施例中,可 以對查詢請求進行同義詞擴充。例如,將“生日”擴充為“出生日期”。在步驟15中,根據(jù)匹配結(jié)果輸出并進而呈現(xiàn)關系化查詢結(jié)果頁面。在本步驟中, 根據(jù)不同的匹配結(jié)果,輸出并進而呈現(xiàn)不同的關系化查詢結(jié)果頁面。 在一實施例中,在步驟13中,若查詢請求與詞條相匹配,則在步驟14中,在關系化 查詢結(jié)果頁面中呈現(xiàn)詞條以及與詞條相關聯(lián)的屬性。隨后,獲取用戶對屬性的操作請求,進 一步根據(jù)操作請求在關系化查詢結(jié)果頁面中呈現(xiàn)與屬性對應的屬性值。例如,如圖2所示, 用戶輸入查詢請求“周杰倫”,則關系化知識共享平臺匹配到詞條“周杰倫”,并將詞條“周杰 倫”以及與詞條“周杰倫”相關聯(lián)的屬性(例如,發(fā)行專輯、廣告代言等)呈現(xiàn)在關系化查詢 結(jié)果頁面中。進一步的,用戶可通過點擊屬性“發(fā)行專輯”來獲取如圖3所示的屬性“發(fā)行 專輯”對應的具體專輯名稱。當然,用戶可進一步通過點擊專輯名稱,進入對應專輯的編輯 頁面或直接獲取該專輯。在本發(fā)明中,屬性可進一步包括主屬性和與主屬性相關聯(lián)的子屬 性。例如,可將“人物”作為周杰倫的主屬性,而將“歌手”作為屬性“人物”下面關聯(lián)的子屬 性。在圖2中,詞條與相關聯(lián)屬性之間是通過關聯(lián)線連接的。但如圖4所示,詞條與相 關聯(lián)屬性也可以通過列表形式呈現(xiàn)。此時,在列表的對應位置同樣顯示“編輯”、“展開”等 操作按鈕,進而根據(jù)用戶的操作請求呈現(xiàn)相對應的屬性值。在另一實施例中,在步驟13中,若查詢請求與詞條及屬性相匹配,則在步驟14中, 在關系化查詢結(jié)果頁面中呈現(xiàn)與詞條以及屬性對應的屬性值。例如,用戶輸入查詢請求“劉 德華的生日是哪天”,則關系化知識共享平臺匹配到詞條“劉德華”,并進一步匹配到與詞條 “劉德華”相關聯(lián)的屬性“生日”。此時,關系化知識共享平臺將對應的屬性值“1961年9月 27日”呈現(xiàn)在關系化查詢結(jié)果頁面中。在再一實施例中,在步驟13中,若查詢請求與屬性或?qū)傩灾迪嗥ヅ?,則在步驟14 中,在關系化查詢結(jié)果頁面中呈現(xiàn)與屬性或?qū)傩灾迪嚓P聯(lián)的詞條。例如,用戶輸入查詢請求 “四大天王”,則關系化知識共享平臺匹配到詞條“劉德華”、“郭富城”、“黎明”以及“張學友” 都具有屬性“四大天王”。此時,關系化知識共享平臺將上述四個詞條均呈現(xiàn)在關系化查詢 結(jié)果頁面中,并與“四大天王”進行關聯(lián)。
8
如圖5所示,圖5是本發(fā)明的關系化知識共享平臺的詞條屬性庫形成方法的流程 示意圖。在步驟51中,獲取詞條的分類信息或標簽信息。其中,分類信息可以通過詞條在 知識共享平臺的現(xiàn)有分類獲得。一般的知識共享平臺都會按詞條屬性進行分類。例如,分 為“自然”、“文化”、“人物”等大類,而“自然”又可分為“生物”、“天文”等小類,而“生物”又 可分為“動物”、“植物”、“微生物”等更小類。當然,分類信息也可以通過其他方式獲得,下 文將描述一種通過機器聚類方式獲得分類信息的方法。標簽信息是指根據(jù)詞條的屬性在詞 條上添加的標記性信息。例如,詞條“珠穆朗瑪峰”可設置“西藏”、“喜馬拉雅山脈”、“地理” 等標簽。在步驟52中,根據(jù)分類信息或標簽信息確定待提取的屬性。例如,詞條的分類信 息為“人物”,則待提取的屬性可以包括“出生年月”、“籍貫”、“身高”、“性別”。待提取的屬 性可以根據(jù)分類信息人工設定,也可以用統(tǒng)計方法從原始語料中提取出現(xiàn)比較頻繁的字詞 作為屬性。在步驟53中,根據(jù)待提取的屬性從原始語料中提取對應的屬性值。在本步驟中, 可通過屬性值與屬性的編輯特點提取對應的屬性值。例如,如果針對屬性“生日”,可以根 據(jù)“生日”在原始語料出現(xiàn)位置,在出現(xiàn)位置前后提取符合日期格式的信息作為屬性值。另 外,對于含有表格等結(jié)構(gòu)化數(shù)據(jù)的原始語料,同樣可以在對應位置或欄位提取到相應的屬 性值。在步驟M中,關聯(lián)詞條、屬性以及屬性值,以形成詞條屬性庫。在本步驟中,詞條 屬性庫可以采用本領域公知的各種關系化數(shù)據(jù)庫實現(xiàn),在此不再贅述。如圖6所示,圖6是本發(fā)明的關系化知識共享平臺的分類信息獲取方法的流程示 意圖。在步驟61中,對原始語料進行特征提取,以獲得多個原始語料特征。在本步驟中, 可通過對原始語料進行分詞及過濾處理,將分詞及過濾后獲得的字詞作為原始語料特征。在步驟62中,對多個原始語料特征進行權(quán)重計算,以分配對應的原始語料特征權(quán) 重。例如,利用TF-IDF算法計算原始語料特征對應的TF-IDF權(quán)值。在步驟63中,對多個原始語料特征進行向量化,以形成原始語料向量。具體向量 化過程為本領域公知技術,在此也不再贅述。在步驟64中,獲取模型文件。模型文件中包括標注有不同分類信息的多個模型向 量。模型文件的具體形成過程將在下文中進行詳細描述。在步驟65中,通過原始語料向量計算原始語料與模型文件的相似度。例如,可通 過余弦相似度計算公式,根據(jù)原始語料向量與模型向量計算出原始語料向量與模型文件的 余弦相似度。在步驟65中,根據(jù)相似度對詞條進行分類,進而確定詞條的分類信息。例如,如果 原始語料與模型文件的余弦相似度大于閾值,則認為二者屬于同類,進而可確定出原始語 料的分類信息。如圖7所示,圖7是本發(fā)明的關系化知識共享平臺的模型文件獲取方法的流程示 意圖。在步驟71中,獲取訓練語料。在本步驟中,訓練語料可以是針對特定分類的詞條內(nèi)容或網(wǎng)頁資料。在步驟72中,對訓練語料進行特征提取,以獲得多個訓練語料特征。在本步驟中, 可通過對訓練語料進行分詞及過濾處理,將分詞及過濾后獲得的字詞作為訓練語料特征。在步驟73中,對多個訓練語料特征進行權(quán)重計算,以分配對應的訓練語料特征權(quán) 重。例如,利用TF-IDF算法計算訓練語料特征對應的TF-IDF權(quán)值。在步驟74中,對多個訓練語料特征進行向量化,以形成訓練語料向量。具體向量 化過程為本領域公知技術,在此也不再贅述。在步驟75中,對訓練語料向量進行分類標注。在本步驟中,可通過人工方式或機 器方式為每一訓練語料向量標注對應的分類信息。在步驟76中,對分類標注后的訓練語料向量進行訓練,以形成模型文件。在本步 驟中,對同一分類的多個訓練語料向量進行機器訓練,以利用多個訓練語料向量形成一個 綜合不同訓練語料向量的模型向量,進而形成模型文件。請參見圖8,圖8是本發(fā)明的關系化知識共享平臺的示意框圖。在本實施例中,關 系化知識共享平臺包括原始語料獲取模塊81、詞條屬性庫形成模塊82、匹配模塊83、輸入 模塊84以及輸出模塊85。原始語料獲取模塊81用于獲取詞條以及與詞條相關的原始語料。其中,原始語料 可以是現(xiàn)有知識共享平臺(例如,百度百科)中存在的以目錄及段落方式按自然語言描述 的詞條內(nèi)容,也可以是以該詞條為關鍵詞利用搜索引擎從網(wǎng)絡中獲得的網(wǎng)頁資料。詞條屬性庫形成模塊82用于從原始語料中提取與詞條相關聯(lián)的至少一個屬性以 及對應的屬性值,以形成詞條屬性庫。例如,針對詞條“周杰倫”,詞條屬性庫形成模塊82可 以根據(jù)屬性“發(fā)行專輯”從原始語料提取出周杰倫所出版的個人專輯的具體名稱作為屬性 值,并可根據(jù)屬性“廣告代言”從原始語料提取出周杰倫所代言的具體廣告作為屬性值。在 下文中將結(jié)合具體實施例詳細描述詞條屬性庫形成模塊82的具體結(jié)構(gòu)。輸入模塊84用于獲取用戶的查詢請求。用戶可通過瀏覽器上的查詢框輸入具體 的查詢請求,例如“劉德華的生日是哪天”。在用戶輸入查詢請求后,通過點擊瀏覽器上的查 詢按鈕,進而將該查詢請求發(fā)送到輸入模塊84。匹配模塊83用于利用查詢請求在詞條屬性庫中進行匹配。匹配模塊83首先對查 詢請求進行識別。具體識別過程可以包括分詞、過濾以及在關鍵字庫進行匹配等。其中, 分詞的作用是將查詢請求中的漢字序列切分成有意義的字詞,以便后續(xù)處理。具體分詞的 方法包括正向匹配分詞、反向匹配分詞、正向反向匹配分詞、基于全切分詞圖的分詞、最大 熵馬爾科夫模型分詞、最大熵分詞或條件隨機場分詞等。過濾的作用是去除標點符號、助詞 等無用信息。進行關鍵字庫匹配的作用是確定是否可以識別出主題詞和限制詞等。例如, 如果查詢請求為“劉德華的生日是哪天”,則通過上述步驟可以識別出主題詞“生日”和限制 詞“劉德華”。查詢請求的具體識別過程為本領域公知技術,在此不再贅述。隨后,匹配模塊 83利用識別出來的主題詞和/或限制詞在詞條屬性庫中進行匹配。例如,利用“生日”和 “劉德華”與詞條屬性庫中的詞條、屬性和/或?qū)傩灾颠M行匹配,從而獲得匹配結(jié)果。在優(yōu)選 實施例中,匹配模塊83可以對查詢請求進行同義詞擴充。例如,將“生日”擴充為“出生日 期”。輸出模塊85用于根據(jù)匹配結(jié)果輸出并進而呈現(xiàn)關系化查詢結(jié)果頁面。輸出模塊85根據(jù)不同的匹配結(jié)果,輸出并進而呈現(xiàn)不同的關系化查詢結(jié)果頁面。在一實施例中,若匹配模塊83判斷查詢請求與詞條相匹配,則輸出模塊85在關系 化查詢結(jié)果頁面中呈現(xiàn)詞條以及與詞條相關聯(lián)的屬性。隨后,輸入模塊84獲取用戶對屬性 的操作請求,輸出模塊85進一步根據(jù)操作請求在關系化查詢結(jié)果頁面中呈現(xiàn)與屬性對應 的屬性值。例如,如圖2所示,用戶輸入查詢請求“周杰倫”,匹配模塊83匹配到詞條“周杰 倫”,則輸出模塊85將詞條“周杰倫”以及與詞條“周杰倫”相關聯(lián)的屬性(例如,發(fā)行專輯、 廣告代言等)呈現(xiàn)在關系化查詢結(jié)果頁面中。進一步的,用戶可通過點擊屬性“發(fā)行專輯” 來獲取如圖3所示的屬性“發(fā)行專輯”對應的具體專輯名稱。當然,用戶可進一步通過點擊 專輯名稱,進入對應專輯的編輯頁面或直接獲取該專輯。在本發(fā)明中,屬性可進一步包括主 屬性和與主屬性相關聯(lián)的子屬性。例如,可將“人物”作為周杰倫的主屬性,而將“歌手”作 為屬性“人物”下面關聯(lián)的子屬性。在圖2中,詞條與相關聯(lián)屬性之間是通過關聯(lián)線連接的。但如圖4所示,詞條與相 關聯(lián)屬性也可以通過列表形式呈現(xiàn)。此時,在列表的對應位置同樣顯示“編輯”、“展開”等 操作按鈕,進而根據(jù)用戶的操作請求呈現(xiàn)相對應的屬性值。在另一實施例中,若匹配模塊83判斷查詢請求與詞條及屬性相匹配,則輸出模塊 85在關系化查詢結(jié)果頁面中呈現(xiàn)與詞條以及屬性對應的屬性值。例如,用戶輸入查詢請求 “劉德華的生日是哪天”,匹配模塊83匹配到詞條“劉德華”,并進一步匹配到與詞條“劉德 華”相關聯(lián)的屬性“生日”。此時,輸出模塊85將對應的屬性值“1961年9月27日”呈現(xiàn)在 關系化查詢結(jié)果頁面中。在再一實施例中,若匹配模塊83判斷查詢請求與屬性或?qū)傩灾迪嗥ヅ?,則輸出模 塊85在關系化查詢結(jié)果頁面中呈現(xiàn)與屬性或?qū)傩灾迪嚓P聯(lián)的詞條。例如,用戶輸入查詢請 求“四大天王”,匹配模塊83匹配到詞條“劉德華”、“郭富城”、“黎明”以及“張學友”都具有 屬性“四大天王”。此時,輸出模塊85將上述四個詞條均呈現(xiàn)在關系化查詢結(jié)果頁面中,并 與“四大天王”進行關聯(lián)。如圖9所示,圖9是本發(fā)明的關系化知識共享平臺的詞條屬性庫形成模塊的示意 框圖。在本實施例中,詞條屬性庫形成模塊包括分類信息獲取模塊90、標簽信息獲取模塊 91、屬性確定模塊92、屬性值提取模塊93以及關聯(lián)模塊94。分類信息獲取模塊90用于獲取詞條的分類信息,標簽信息獲取模塊91用于獲取 標簽信息。其中,分類信息可以通過詞條在知識共享平臺的現(xiàn)有分類獲得。一般的知識共 享平臺都會按詞條屬性進行分類。例如,分為“自然”、“文化”、“人物”等大類,而“自然”又 可分為“生物”、“天文”等小類,而“生物”又可分為“動物”、“植物”、“微生物”等更小類。當 然,分類信息也可以通過其他方式獲得,下文將描述一種基于機器聚類方式的分類信息獲 取模塊。標簽信息是指根據(jù)詞條的屬性在詞條上添加的標記性信息。例如,詞條“珠穆朗瑪 峰”可設置“西藏”、“喜馬拉雅山脈”、“地理”等標簽。屬性確定模塊92用于根據(jù)分類信息或標簽信息確定待提取的屬性。例如,詞條的 分類信息為“人物”,則待提取的屬性可以包括“出生年月”、“籍貫”、“身高”、“性別”。待提 取的屬性可以根據(jù)分類信息人工設定,也可以用統(tǒng)計方法從原始語料中提取出現(xiàn)比較頻繁 的字詞作為屬性。屬性值提取模塊93用于根據(jù)待提取的屬性從原始語料中提取對應的屬性值。屬
11性值提取模塊93可通過屬性值與屬性的編輯特點提取對應的屬性值。例如,如果針對屬性 “生日”,屬性值提取模塊93可以根據(jù)“生日”在原始語料出現(xiàn)位置,在出現(xiàn)位置前后提取符 合日期格式的信息作為屬性值。另外,對于含有表格等結(jié)構(gòu)化數(shù)據(jù)的原始語料,屬性值提取 模塊93可以在對應位置或欄位提出到相應的屬性值。關聯(lián)模塊94用于關聯(lián)詞條、屬性以及屬性值,以形成詞條屬性庫。其中,詞條屬性 庫可以采用本領域公知的各種關系化數(shù)據(jù)庫實現(xiàn),在此不再贅述。如圖10所示,圖10是本發(fā)明的關系化知識共享平臺的分類信息獲取模塊的示意 框圖。在本實施例中,分類信息獲取模塊可以包括原始語料特征提取模塊101、原始語料特 征權(quán)重計算模塊102、原始語料向量化模塊103、模型文件獲取模塊104、相似度計算模塊 105、分類模塊106。原始語料特征提取模塊101用于對原始語料進行特征提取,以獲得多個原始語料 特征。原始語料特征提取模塊101可通過對原始語料進行分詞及過濾處理,將分詞及過濾 后獲得的字詞作為原始語料特征。原始語料特征權(quán)重計算模塊102用于對多個原始語料特征進行權(quán)重計算,以分配 對應的原始語料特征權(quán)重。例如,利用TF-IDF算法計算原始語料特征對應的TF-IDF權(quán)值。原始語料向量化模塊103用于對多個原始語料特征進行向量化,以形成原始語料 向量。具體向量化過程為本領域公知技術,在此也不再贅述。模型文件獲取模塊104用于獲取模型文件。模型文件中包括標注有不同分類信息 的多個模型向量。模型文件獲取模塊104的具體結(jié)構(gòu)將在下文中進行詳細描述。相似度計算模塊105用于通過原始語料向量計算原始語料與模型文件的相似度。 例如,可通過余弦相似度計算公式,根據(jù)原始語料向量與模型向量計算出原始語料向量與 模型文件的余弦相似度。分類模塊106用于根據(jù)相似度對詞條進行分類,進而確定詞條的分類信息。例如, 如果原始語料與模型文件的余弦相似度大于閾值,則認為二者屬于同類,進而可確定出原 始語料的分類信息。如圖11所示,圖1是本發(fā)明的關系化知識共享平臺的模型文件獲取模塊的示意框 圖。在本實施例中,模型文件獲取模塊包括訓練語料獲取模塊111、訓練語料特征提取模塊 112、訓練語料特征權(quán)重計算模塊113、訓練語料向量化模塊114、分類標注模塊115、訓練模 塊 116。訓練語料獲取模塊111用于獲取訓練語料。其中,訓練語料可以是針對特定分類 的詞條內(nèi)容或網(wǎng)頁資料。訓練語料特征提取模塊112用于對訓練語料進行特征提取,以獲得多個訓練語料 特征。訓練語料特征提取模塊112可通過對訓練語料進行分詞及過濾處理,將分詞及過濾 后獲得的字詞作為訓練語料特征。訓練語料特征權(quán)重計算模塊113用于對多個訓練語料特征進行權(quán)重計算,以分配 對應的訓練語料特征權(quán)重。例如,利用TF-IDF算法計算訓練語料特征對應的TF-IDF權(quán)值。訓練語料向量化模塊114用于對多個訓練語料特征進行向量化,以形成訓練語料 向量。具體向量化過程為本領域公知技術,在此也不再贅述。分類標注模塊115用于對訓練語料向量進行分類標注。分類標注模塊115可通過人工方式或機器方式為每一訓練語料向量標注對應的分類信息。訓練模塊116用于對分類標注后的訓練語料向量進行訓練,以形成模型文件。訓 練模塊116對同一分類的多個訓練語料向量進行機器訓練,以利用多個訓練語料向量形成 一個綜合不同訓練語料向量的模型向量,進而形成模型文件。通過上述所提供的技術方案,本發(fā)明提供了一種關系化知識共享平臺及其實現(xiàn)方 法,其通過對詞條、屬性及屬性值進行關系化處理,可以根據(jù)用戶的查詢請求呈現(xiàn)關系化的 查詢結(jié)果頁面,提高了用戶的瀏覽體驗。以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明保護的范圍之內(nèi)。
權(quán)利要求
1.一種關系化知識共享平臺的實現(xiàn)方法,其特征在于,所述實現(xiàn)方法包括a.獲取詞條以及與所述詞條相關的原始語料;b.從所述原始語料中提取與所述詞條相關聯(lián)的至少一個屬性以及對應的屬性值,以形 成詞條屬性庫;c.獲取用戶的查詢請求;d.利用所述查詢請求在所述詞條屬性庫中進行匹配;以及e.根據(jù)匹配結(jié)果輸出并進而呈現(xiàn)關系化查詢結(jié)果頁面。
2.根據(jù)權(quán)利要求1所述的關系化知識共享平臺的實現(xiàn)方法,其特征在于,在所述步驟d 中,若所述查詢請求與所述詞條相匹配,則在所述步驟e中,在所述關系化查詢結(jié)果頁面中 呈現(xiàn)所述詞條以及與所述詞條相關聯(lián)的所述屬性。
3.根據(jù)權(quán)利要求2所述的關系化知識共享平臺的實現(xiàn)方法,其特征在于,所述實現(xiàn)方 法進一步包括f.獲取用戶對所述屬性的操作請求,進一步根據(jù)所述操作請求在所述關系 化查詢結(jié)果頁面中呈現(xiàn)與所述屬性對應的所述屬性值。
4.根據(jù)權(quán)利要求1所述的關系化知識共享平臺的實現(xiàn)方法,其特征在于,在所述步驟d 中,若所述查詢請求與所述詞條及所述屬性相匹配,則在所述步驟e中,在所述關系化查詢 結(jié)果頁面中呈現(xiàn)與所述詞條以及所述屬性對應的所述屬性值。
5.根據(jù)權(quán)利要求1所述的關系化知識共享平臺的實現(xiàn)方法,其特征在于,在所述步驟d 中,若所述查詢請求與所述屬性或所述屬性值相匹配,則在所述步驟e中,在所述關系化查 詢結(jié)果頁面中呈現(xiàn)與所述屬性或所述屬性值相關聯(lián)的所述詞條。
6.根據(jù)權(quán)利要求1所述的關系化知識共享平臺的實現(xiàn)方法,其特征在于,所述步驟b包括bl.獲取所述詞條的分類信息;b2.根據(jù)所述分類信息確定所述屬性;b3.根據(jù)所述屬性從所述原始語料中提取對應的屬性值;b4.關聯(lián)所述詞條、所述屬性以及所述屬性值,以形成所述詞條屬性庫。
7.根據(jù)權(quán)利要求6所述的關系化知識共享平臺的實現(xiàn)方法,其特征在于,所述步驟bl 進一步包括bll.對所述原始語料進行特征提取,以獲得多個原始語料特征;bl2.對所述多個原始語料特征進行權(quán)重計算,以分配對應的原始語料特征權(quán)重;bl3.對所述多個原始語料特征進行向量化,以形成原始語料向量;bl4.獲取模型文件;bl5.通過所述原始語料向量計算所述原始語料與所述模型文件的相似度; bl6.根據(jù)所述相似度對所述詞條進行分類,進而確定所述詞條的分類信息。
8.根據(jù)權(quán)利要求7所述的關系化知識共享平臺的實現(xiàn)方法,其特征在于,所述步驟bl4 進一步包括bl41.獲取訓練語料;bl42.對所述訓練語料進行特征提取,以獲得多個訓練語料特征; bl43.對所述多個訓練語料特征進行權(quán)重計算,以分配對應的訓練語料特征權(quán)重; bl44.對所述多個訓練語料特征進行向量化,以形成訓練語料向量;bl45.對所述訓練語料向量進行分類標注;bl46.對分類標注后的所述訓練語料向量進行訓練,以形成所述模型文件。
9.根據(jù)權(quán)利要求1所述的關系化知識共享平臺的實現(xiàn)方法,其特征在于,所述步驟b包括bl.獲取所述詞條的標簽信息;b2.根據(jù)所述標簽信息確定所述屬性;b3.根據(jù)所述屬性從所述原始語料中提取對應的屬性值;b4.關聯(lián)所述詞條、所述屬性以及所述屬性值,以形成所述詞條屬性庫。
10.一種關系化知識共享平臺,其特征在于,所述關系化知識共享平臺包括 原始語料獲取模塊,獲取詞條以及與所述詞條相關的原始語料;詞條屬性庫形成模塊,從所述原始語料中提取與所述詞條相關聯(lián)的至少一個屬性以及 對應的屬性值,以形成詞條屬性庫; 輸入模塊,獲取用戶的查詢請求;匹配模塊,利用所述查詢請求在所述詞條屬性庫中進行匹配;以及 輸出模塊,根據(jù)匹配結(jié)果輸出并進而呈現(xiàn)關系化查詢結(jié)果頁面。
11.根據(jù)權(quán)利要求10所述的關系化知識共享平臺,其特征在于,若所述匹配模塊判斷 所述查詢請求與所述詞條相匹配,則所述輸出模塊在所述關系化查詢結(jié)果頁面中呈現(xiàn)所述 詞條以及與所述詞條相關聯(lián)的所述屬性。
12.根據(jù)權(quán)利要求11所述的關系化知識共享平臺,其特征在于,所述輸入模塊進一步 獲取用戶對所述屬性的操作請求,所述輸出模塊進一步根據(jù)所述操作請求在所述關系化查 詢結(jié)果頁面中呈現(xiàn)與所述屬性對應的所述屬性值。
13.根據(jù)權(quán)利要求10所述的關系化知識共享平臺,其特征在于,若所述匹配模塊判斷 所述查詢請求與所述詞條及所述屬性相匹配,則所述輸出模塊在所述關系化查詢結(jié)果頁面 中呈現(xiàn)與所述詞條以及所述屬性對應的所述屬性值。
14.根據(jù)權(quán)利要求10所述的關系化知識共享平臺,其特征在于,若所述匹配模塊判斷 所述查詢請求與所述屬性或所述屬性值相匹配,則所述輸出模塊在所述關系化查詢結(jié)果頁 面中呈現(xiàn)與所述屬性或所述屬性值相關聯(lián)的所述詞條。
15.根據(jù)權(quán)利要求10所述的關系化知識共享平臺,其特征在于,所述詞條屬性庫形成 模塊包括分類信息獲取模塊,獲取所述詞條的分類信息; 屬性確定模塊,根據(jù)所述分類信息確定所述屬性; 屬性值提取模塊,根據(jù)所述屬性從所述原始語料中提取對應的屬性值; 關聯(lián)模塊,關聯(lián)所述詞條、所述屬性以及所述屬性值,以形成所述詞條屬性庫。
16.根據(jù)權(quán)利要求15所述的關系化知識共享平臺,其特征在于,所述分類信息獲取模 塊包括原始語料特征提取模塊,對所述原始語料進行特征提取,以獲得多個原始語料特征; 原始語料特征權(quán)重計算模塊,對所述多個原始語料特征進行權(quán)重計算,以分配對應的 原始語料特征權(quán)重;原始語料向量化模塊,對所述多個原始語料特征進行向量化,以形成原始語料向量;模型文件獲取模塊,獲取模型文件;相似度計算模塊,通過所述原始語料向量計算所述原始語料與所述模型文件的相似度;分類模塊,根據(jù)所述相似度對所述詞條進行分類,進而確定所述詞條的分類信息。
17.根據(jù)權(quán)利要求16所述的關系化知識共享平臺,其特征在于,所述模型文件獲取模 塊包括訓練語料獲取模塊,獲取訓練語料;訓練語料特征提取模塊,對所述訓練語料進行特征提取,以獲得多個訓練語料特征; 訓練語料特征權(quán)重計算模塊,對所述多個訓練語料特征進行權(quán)重計算,以分配對應的 訓練語料特征權(quán)重;訓練語料向量化模塊,對所述多個訓練語料特征進行向量化,以形成訓練語料向量; 分類標注模塊,對所述訓練語料向量進行分類標注;訓練模塊,對分類標注后的所述訓練語料向量進行訓練,以形成所述模型文件。
18.根據(jù)權(quán)利要求10所述的關系化知識共享平臺,其特征在于,所述詞條屬性庫形成 模塊包括標簽信息獲取模塊,獲取所述詞條的標簽信息; 屬性確定模塊,根據(jù)所述標簽信息確定所述屬性; 屬性值提取模塊,根據(jù)所述屬性從所述原始語料中提取對應的屬性值; 關聯(lián)模塊,關聯(lián)所述詞條、所述屬性以及所述屬性值,以形成所述詞條屬性庫。
全文摘要
本發(fā)明提供了一種關系化知識共享平臺及其實現(xiàn)方法。該實現(xiàn)方法包括獲取詞條以及與詞條相關的原始語料;從原始語料中提取與詞條相關聯(lián)的至少一個屬性以及對應的屬性值,以形成詞條屬性庫;獲取用戶的查詢請求;利用查詢請求在詞條屬性庫中進行匹配;以及根據(jù)匹配結(jié)果輸出并進而呈現(xiàn)關系化查詢結(jié)果頁面。通過上述所提供的技術方案,本發(fā)明提供了一種關系化知識共享平臺及其實現(xiàn)方法,其通過對詞條、屬性及屬性值進行關系化處理,可以根據(jù)用戶的查詢請求呈現(xiàn)關系化的查詢結(jié)果頁面,提高了用戶的瀏覽體驗。
文檔編號G06F17/30GK102073729SQ201110007580
公開日2011年5月25日 申請日期2011年1月14日 優(yōu)先權(quán)日2011年1月14日
發(fā)明者嚴冰, 嚴孫榮, 唐益龍, 夏寅, 張偉, 曹建棟, 李博, 李永強, 梁東杰, 王京津, 王坤, 耿磊, 蘇上海, 薛永剛, 陸海霞, 陳恭明, 陳浩然, 韋晨曦 申請人:百度在線網(wǎng)絡技術(北京)有限公司