一種商品知識圖譜的構建方法
【專利摘要】本發(fā)明公開一種商品知識圖譜的構建方法,包括商品知識圖譜的客觀性商品分類知識的構建和主觀性用戶觀點知識的構建。主觀性知識的構建包含采用基于多分類器集成的方法從用戶評論中挖掘觀點目標和觀點詞的過程和直接從網(wǎng)站上獲取觀點持有者、觀點發(fā)表時間和/或觀點的URL信息的過程??陀^性知識的構建包含采用基于多源異構分類層次融合的方法獲取兼顧深度和廣度的商品分類層次的過程和直接從網(wǎng)站上獲取商品實例的過程。本發(fā)明針對商品所構建的結構化的知識圖譜涵蓋了客觀性商品分類和主觀性用戶觀點兩類知識,不僅能夠為上層服務提供商品實體的準確解釋,而且還能夠了解眾多用戶對商品及其屬性的觀點描述,從而為用戶提供更快速、更精準、更全面的商品知識服務。
【專利說明】
一種商品知識圖譜的構建方法
技術領域
[0001] 本發(fā)明屬于數(shù)據(jù)庫技術領域,具體涉及一種商品知識圖譜的構建方法。
【背景技術】
[0002] 隨著網(wǎng)絡技術飛速發(fā)展和普及,Web已經(jīng)成為事實上最大的知識庫之一。然而,Web 上知識以無結構或半結構化的形式存在,極大程度上制約了它們的自動化和智能化運用。 對Web上包含的知識重新組織,使其轉變成結構化的信息近年來已受到多方面的重視。例 如,Google整合了多個開源知識庫(如Freebase和維基百科)及其搜索數(shù)據(jù)等構建知識圖 譜,微軟發(fā)布的Satori,這兩者都致力通過將網(wǎng)頁中的知識結構化,以實現(xiàn)字符串的語義匹 配,提高搜索的質(zhì)量。在學術界中,德國MPII(Max_Planck Institute for Informatics)的 Weikum領導研發(fā)的Yago和亞研院的Probase等;國內(nèi)針對中文知識圖譜有百度的知心,搜狗 的知立方,清華大學知識工程研究室的跨語言知識圖譜XLore等。這些系統(tǒng)中的語義數(shù)據(jù)可 通過人工協(xié)作式地創(chuàng)建或者自動抽取的過程從Web上獲取,說明了系統(tǒng)化地組織和運用Web 上的知識受到了越來越多的關注,具有重要的研究意義和應用價值。但是,它們主要關注的 是常識性的客觀知識(例如奧巴馬是美國總統(tǒng)),目前還缺乏比較完整的商品知識圖譜,現(xiàn) 有的知識圖譜構建技術中更未涉及到主觀性用戶觀點知識獲取和組織。
[0003] 而在電子商務環(huán)境中用戶觀點知識對于商品具有重要的意義。由于人們常常通過 社交媒體平臺上發(fā)布評論與其他用戶共享他們的體驗,這些用戶生成的內(nèi)容富含用戶觀 點,是商品在網(wǎng)絡上口碑形成的主要依據(jù),對商家和其他顧客具有重大的參考價值。2011年 美國Cone公司的一項調(diào)查指出,87%的用戶閱讀了關于某商品的肯定評論后決定購買該商 品,80%的用戶閱讀否定評論后放棄了購買意向。由此可見,海量評論中的用戶觀點是其他 潛在顧客和企業(yè)決策制定時的重要依據(jù),具有重大的應用價值。目前,評論數(shù)據(jù)中的用戶觀 點信息在應用時面臨兩個主要的問題:(1)海量的評論數(shù)據(jù)帶來的信息過載問題;該問題使 得用戶難以準確和全面地獲取他們期望得到的用戶觀點信息;(2)用戶觀點隱藏在無結構 文本中,嚴重地阻礙了用戶觀點信息的自動化和智能化運用。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明所要解決的技術問題是Web上包含的商品分類知識和海量用戶觀點都隱藏 在無結構的文本中,難以實現(xiàn)自動化和智能化應用的問題,提供一種商品知識圖譜的構建 方法。
[0005] 為解決上述問題,本發(fā)明是通過以下技術方案實現(xiàn)的:
[0006] -種商品知識圖譜的構建方法,包括商品知識圖譜的客觀性商品分類知識的構建 和主觀性用戶觀點知識的構建。
[0007] 上述主觀性用戶觀點知識的構建包含采用基于多分類器集成的方法從用戶評論 中挖掘觀點目標和觀點詞的過程,即:
[0008] 步驟(1)將評論集中評論的單詞數(shù)小于設定閾值t的評論過濾掉,將評論集中剩下 的每個評論切分成句子,構成一個評論語句集s;
[0009] 步驟(2)對評論語句集S中的每個句子進行組塊識別;
[0010] 步驟(3)對評論語句集S中的每個句子所出現(xiàn)的組塊兩兩構建成觀點目標和觀點 詞的候選對,并保證每個候選對中的兩個組塊的次序與它們在句子中出現(xiàn)的順序一致;
[0011] 步驟(4)將每個候選對作為一個樣本,根據(jù)預先確定的特征對樣本進行向量化表 示,構成樣本集SL;
[0012] 步驟(5)將樣本集SL劃分成大小不等的兩個集合SLjPSL2,其中|SU| > |SL2| ;
[0013] 步驟⑻在集合SLl上采用不同的分類方法訓練出不同的分類器;
[0014] 步驟(7)對集合SL2中的每個樣本分別用訓練好的分類器進行分類,得到的分類結 果與樣本的標簽構成一個新的樣本,由此可以得到I SL21個新樣本;
[0015] 步驟(8)用所得的新樣本去訓練出一個集成分類器,并用該集成分類器將所有分 類器的預測結果進行整合,由此完成商品知識圖譜的主觀性用戶觀點知識中的觀點目標和 觀點詞的協(xié)同抽取。
[0016] 所述步驟(4)中,對樣本進行向量化的特征包括候選對所處句子的句子類型、候選 對中第一個組塊在句子中的位置、候選對中兩個組塊詞性組合的類型、候選對中兩個組塊 間間隔的單詞數(shù)、候選對中兩個組塊間是否包含有標點、候選對中兩個組塊是否包含有表 情符號、候選對中兩個組塊是否落在不同的從句中和/或候選對中兩個組塊間是否包含介 。
[0017] 上述主觀性用戶評論知識的構建還進一步包含直接從網(wǎng)站上獲取觀點持有者、觀 點發(fā)表時間和/或觀點的URL信息的過程。
[0018] 上述客觀性商品分類知識的構建包含采用基于多源異構分類層次融合的方法從 網(wǎng)站上獲取商品分類層次的過程,即:
[0019] 步驟1)從不同的網(wǎng)站上獲取不同的分類層次,并選定其中一個分類層次作為目標 分類層次Tt;
[0020] 步驟2)消除源分類層次Ts中與目標分類層次Tt沖突的分類知識,BP :
[0021]首先,找出源分類層次Ts與目標分類層次Tt中所有同義的分類概念對,構成同義分 類概念對集合M;
[0022] 然后,對于同義分類概念對集合M中的每個分類概念對(Cl,Cj),如果存在滿足以下 條件之一的分類概念對(v,/ )時,即
[0023] (a)概念v是概念Cl的前驅節(jié)點并且概念/是概念的后繼節(jié)點;
[0024] (b)概念v是概念Cl的后繼節(jié)點并且概念/是概念的前驅節(jié)點;
[0025] 則在源分類層次Ts中概念Cl,概念Cl的孩子節(jié)點變?yōu)楦拍?^的父節(jié)點的孩子節(jié)點, 得到新的源分類層次T/ ;
[0026] 步驟3)將新的源分類層次T/直接融合進目標分類層次Tt中,即:
[0027] 從新的源分類層次T/的根節(jié)點開始融合,對根節(jié)點的每個孩子節(jié)點w遞歸執(zhí)行如 下操作:
[0028] ①如果不存在(wV )EM,則將孩子節(jié)點w添加為目標分類層次Tt的根節(jié)點p'的孩 子節(jié)點;
[0029] ②如果存在(w,^) EM,則再判斷節(jié)點V是否為目標分類層次Tt根節(jié)點p'的子孫; 若節(jié)點V不是目標分類層次Tt根節(jié)點p'的子孫,則在目標分類層次Tt增加邊(p',V );若節(jié) 點V是目標分類層次Tt根節(jié)點p'的子孫,則重復①和②的遞歸過程融合節(jié)點w的孩子節(jié)點。
[0030]所述步驟1)中,根據(jù)下式在分類層次集合...,U}中選擇分類層次作為 融合的目標分類層次Tt:
[0032] 式中,Span(ti)為分類層次ti的跨度;Depth(ti)為分類層次ti的深度。
[0033] 上述客觀性知識的構建還進一步包含直接從網(wǎng)站上獲取商品實例和商品屬性的 過程。
[0034] 與現(xiàn)有技術相比,本發(fā)明針對商品所構建的結構化的知識圖譜涵蓋了客觀性商品 分類和主觀性用戶觀點兩類知識,不僅能夠為上層服務提供商品實體的準確解釋,而且還 能夠了解眾多用戶對商品及其屬性的觀點描述,從而為用戶提供更快速、更精準、更全面的 商品知識服務。
【附圖說明】
[0035]圖1為結構化的商品知識圖譜。
[0036] 圖2為分類層次融合的結果示意圖。
【具體實施方式】
[0037] -種商品知識圖譜的構建方法,包括商品知識圖譜的客觀性知識的構建和主觀性 知識的構建。主觀性用戶觀點知識的構建包含(I)采用基于多分類器集成的方法從評論中 挖掘出觀點目標和觀點詞的過程和(II)直接從網(wǎng)站上獲取觀點持有者、觀點發(fā)表時間和/ 或觀點的URL信息的過程??陀^性商品分類知識的構建包含(I)采用基于多源異構分類層次 融合的方法獲取兼顧深度和廣度的商品分類層次的過程和(II)直接從網(wǎng)站上獲取商品實 例的過程。
[0038] 上述采用基于多分類器集成的方法從用戶評論中挖掘觀點目標和觀點詞的過程 具體包括如下步驟:
[0039] 步驟(1)將評論集中評論的單詞數(shù)小于設定閾值t的評論過濾掉,將評論集中剩 下的每個評論切分成句子,構成一個評論語句集S;
[0040] 步驟(2)對評論語句集S中的每個句子進行組塊識別;
[0041] 步驟(3)對評論語句集S中的每個句子所出現(xiàn)的組塊兩兩構建成觀點目標和觀點 詞的候選對,并保證每個候選對中的兩個組塊的次序與它們在句子中出現(xiàn)的順序一致;
[0042] 步驟(4)將每個候選對作為一個樣本,并根據(jù)預先確定的特征對樣本進行向量化 后,構成樣本集SL;對樣本進行向量化的特征包括候選對所處句子的句子類型、候選對中第 一個組塊在句子中的位置、候選對中兩個組塊詞性組合的類型、候選對中兩個組塊間間隔 的單詞數(shù)、候選對中兩個組塊間是否包含有標點、候選對中兩個組塊是否包含有表情符號、 候選對中兩個組塊是否落在不同的從句中和/或候選對中兩個組塊間是否包含介詞;
[0043]步驟(5)將樣本集SL劃分成大小不等的兩個集合SLjPSL2,其中|SU| > |SL2| ;
[0044]步驟(6)在集合SU上采用不同的分類方法訓練出不同的分類器;
[0045] 步驟(7)對集合SL2中的每個樣本分別用訓練好的分類器進行分類,得到的分類結 果與樣本的標簽構成一個新的樣本,由此可以得到I SL21個新樣本;
[0046] 步驟(8)用所得的新樣本去訓練出一個集成分類器,并用該集成分類器將所有分 類器的預測結果進行整合,由此完成商品知識圖譜的主觀性用戶觀點知識中的觀點目標和 觀點詞的協(xié)同抽取。
[0047] 上述采用基于多源異構分類層次融合的方法獲取獲取兼顧深度和廣度的商品分 類層次的過程具體包括如下步驟:
[0048]步驟1)從不同的網(wǎng)站上獲取不同的商品分類層次,并選定其中一個分類層次作為 目標分類層次Tt;
[0049]可以任意選定一個分類層次作為目標分類層次,也可以根據(jù)下式在分類層次集合 T = {t,t2,. . .,U}中選擇分類層次作為融合的目標分類層次Tt:
[0051]式中,Span(ti)為分類層次ti的跨度;Depth(ti)為分類層次ti的深度;
[0052]步驟2)消除源分類層次Ts中與目標分類層次Tt沖突的分類知識,SP :
[0053]首先,找出源分類層次Ts與目標分類層次Tt中所有同義的分類概念對,構成同義分 類概念對集合M;
[0054]然后,對于同義分類概念對集合M中的每個分類概念對(Cl,Cj),如果存在滿足以下 條件之一的分類概念對(v,/ )時,即
[0055] (a)概念v是概念Ci的前驅節(jié)點并且概念/是概念Cj的后繼節(jié)點;
[0056] (b)概念v是概念Cl的后繼節(jié)點并且概念/是概念的前驅節(jié)點;
[0057]則在源分類層次Ts中概念Cl,概念Cl的孩子節(jié)點變?yōu)楦拍?^的父節(jié)點的孩子節(jié)點, 得到新的源分類層次T/ ;
[0058] 步驟3)將新的源分類層次T/直接融合進目標分類層次Tt中,即:
[0059] 從新的源分類層次T/的根節(jié)點開始融合,對根節(jié)點的每個孩子節(jié)點w遞歸執(zhí)行如 下操作:
[0060] ①如果不存在(wV )EM,則將節(jié)點w添加為目標分類層次Tt的根節(jié)點p'的孩子節(jié) 占 .
[0061] ②如果存在(w,^) EM,則再判斷節(jié)點V是否為目標分類層次Tt根節(jié)點p'的子孫; 若節(jié)點V不是目標分類層次Tt根節(jié)點p'的子孫,則在目標分類層次T t增加邊(p',V );若節(jié) 點V是目標分類層次Tt根節(jié)點p'的子孫,則重復①和②的遞歸過程融合節(jié)點w的孩子節(jié)點。 [0062]本發(fā)明提出的面向商品知識圖譜如圖1所示。商品分類層用于描述商品分類知識, 位于越高的層次則該概念就越具抽象性,概念與概念之間是子類的關系。商品實例層由眾 多具體的商品構成,每個商品實例至少關聯(lián)一個商品概念。商品屬性層的每種商品屬性關 聯(lián)到唯一的一個商品實例。商品分類層、商品實例層和商品屬性層為一個有向無環(huán)圖,構成 商品知識圖譜中的客觀性知識。用戶層由用戶及用戶間的關系構成,用戶間的關系可以根 據(jù)實際的應用確定,例如社交網(wǎng)絡中的朋友關系;用戶觀點層主要是描述用戶對商品實例 或其屬性所持的觀點詞,為了能夠便于運用用戶的觀點信息,我們還保存了觀點的發(fā)表時 間以及包含該觀點的評論的URL值,以便進一步挖掘與該商品相關的有價值的信息,從而提 高商品觀點知識的運用靈活性。用戶層和用戶觀點層構成了商品知識圖譜中的主觀性知 識。
[0063] 為了使商品知識圖譜中的知識具有結構化的特點,我們采用基于RDF (Resource Description Framework)的形式進行組織,相關的符號定義如下:
[0064] Ci為商品分類概念,商品分類概念集C = {Cl,C2,C3,…,cni},例如電子產(chǎn)品、計算 機、手機等是商品分類概念。
[0065] 乜為商品實例,商品實例集1 = {;[1,12,13廣.,:[112},例如1口110116 68、1(;[11(116 Paperwhite等是商品實例。
[0066] ai為商品屬性,商品屬性集A = {ai,a2,a3,…,an3},例如屏幕、噪音、續(xù)航時間等是 商品屬性。
[0067] ri為評論的發(fā)布者,評論用戶集R= {ri,r2,r3,"_,rn4}。
[0068] 〇i為觀點詞,觀點詞集0= {〇1,〇2,〇3,…,〇n5},例如很好、漂亮等是觀點詞。
[0069] ti為時間戳,時間戳集丁={^山33,'"山6},例如2015年6月23日。
[0070] 1^為11此值,1]此集1]={111,112,113,",11116}。
[0071] 實體集E = CUI UAURU0UTUUUF,其中F={n,f2,f3,.",fn5}為事實集合,事 實乜=〈叉,口」,7>,其中^^£,7££,謂詞口」定義如表1:
[0072] 表1商品知識圖譜中的謂詞描述
[0075] 雙射函數(shù)H:F-Sid為每個事實fi賦予一個唯一的標識符,其中Sid={#l,#2,# 3,…,#n}〇
[0076]商品知識圖譜中的知識由大量的事實構成的。例如,"張三覺得iphone 6s的屏幕 太小"根據(jù)上面定義的符號在商品知識圖譜中可用三個事實表示為:
[0077] #1-〈屏幕,厶1:1:1';[131^60;1^,1卩110116 68>
[0078] #2-〈張三,0pinion0n,#l>
[0079] #3_〈#2,0pinionDes,太小 >〇
[0080] 商品分類知識的構建部分
[0081] 不同的電子商務網(wǎng)站都根據(jù)自身的需求創(chuàng)建自己的商品分類層次,這些商品的分 類層次在深度或者廣度上具有局限性。本發(fā)明設計了一個基于多源異構分類層次融合的方 法來構建一個全面的商品分類層次。
[0082] 設"是一個商品分類層次,TzHhts,…,tm}是分類層次集合,《是分類層次 所有節(jié)點的集合,~是分類層次U中所有葉子節(jié)點的集合,HUO為分類層次t包含的層次 數(shù),pre (Vj)表示節(jié)點Vj的前驅節(jié)點集,succ (Vj)表示分類層次ti中節(jié)點Vj的后繼節(jié)點集。
[0083] 分類層次七的跨度定義為樹中所有層包含的節(jié)點平均數(shù)
&為第i層包含的節(jié)點數(shù);
[0084] 分類層次ti的深度定義為len(Vi)為節(jié)點Vi到根節(jié) 點的距離;
[0085] 設分類層次集合T= {h,t2,…,tm},首先根據(jù)下式在分類層次集合T中選擇在跨度 和深度兩個維度都較大的分類層次作為融合的目標分類層次T t:
[0087] T_{Tt}中的每棵分類層次執(zhí)行如下操作將其融合到目標分類層次中:
[0088] 1、消除源分類層次Ts中與目標分類層次Tt沖突的分類知識:
[0089] 找出兩棵分類層次中所有同義的分類概念對(Cl,Cj),并構建同義分類概念對集合 if fU%,》.)| e e t,.ci與Cj同義};
[0090] 對M中的每個元素(Ci,Cj),如果M中存在同義的分類概念對),其中v和v'滿 足以下條件之一:(a)v是(^的前驅節(jié)點并且/是q的后繼節(jié)點,(b)v是(^的后繼節(jié)點并且/ 是的前驅節(jié)點,則在T s中刪除Cl,Cl的孩子節(jié)點變?yōu)?^的父節(jié)點的孩子節(jié)點,得到新的源分 類層次T/ ;
[0091 ] 2、將與目標分類層次Tt無沖突的源分類層次T/融合進Tt中;
[0092] 從源分類層次T/中根節(jié)點p開始融合,對p的每個孩子w遞歸執(zhí)行如下操作:
[0093] ①若不存在(w,^ ) EM,則將w添加為目標分類層次的根節(jié)點p'的孩子節(jié)點;
[0094] ②若存在(wV )eM,則
[0095] 〈1>若/不是!/的子孫,則在Tt增加邊(pW );
[0096] 〈2>若V是p'的子孫,則重復①-②過程融合w的孩子節(jié)點;
[0097] 假設兩個分類層次的同義分類概念對集合 (e,e' ),( j,j' ),(d,d' )},融合后的結果示例如圖2所示。
[0098] 商品觀點知識的挖掘部分
[0099] 觀點知識中主要包含觀點目標、觀點詞、觀點持有者、觀點發(fā)表時間和包含該觀點 的評論URL。在本發(fā)明中觀點持有者為評論的發(fā)布者,觀點發(fā)表時間即為評論時間,這兩者 和評論的URL信息可在評論網(wǎng)站上直接獲取。下面主要闡述觀點目標和觀點詞的自動獲取 和整合方法。
[0100] 本發(fā)明將觀點目標和觀點詞的協(xié)同抽取看作一個二分類問題,如果一個候選的觀 點目標和觀點詞對是正確的,則分為類型1,否則為類型〇??紤]到不同的分類方法在不同商 品領域分類性能各不相同,因此本發(fā)明設計了一個基于多分類器集成的方法來進行觀點目 標和觀點詞的協(xié)同抽取。
[0101 ]首先對評論集采用如下步驟的預處理:
[0102] 1、將評論集中單詞數(shù)小于閾值如1 = 3)的評論過濾掉,將剩下的每個評論切分 成句子,構成一個評論語句集S={si,S2,'",Sn};
[0103] 2、對S中的每個句子進行組塊識別;
[0104] 3、對每個Sles中出現(xiàn)的組塊兩兩構建成觀點目標和觀點詞候選對,并保證每個 候選對中的兩個組塊的次序與它們在句子中的次序一致;
[0105] 4、將每個候選對作為一個樣本根據(jù)下列特征進行向量化:(1)兩個組塊詞性組合 的類型,(2)候選對中兩個組塊間間隔的單詞數(shù),(3)候選對中第一個組塊在句子中的位置, (4)句子的類型,(5)兩個組塊間是否包含有標點,(6)兩個組塊是否包含有表情符號,(7)兩 個組塊是否落在不同的從句中,(8)兩個組塊間是否包含介詞。
[0106] 然后,在標注好的樣本集SL上進行如下操作:
[0107] 1、將31劃分成大小不等(如70%¥8 30%)的兩個集合31^和31^,假設|31^|>|312|, 即集合SU中的樣本數(shù)大于集合SL2中的樣本數(shù);
[0108] 2、在31^上針對111種分類方法訓練111個分類器(:1,(:2,……,C m;
[0109] 按照以下標準從m個分類器中選擇其中k個分類器構成的分類器集合SC:
[0111 ]此處A為兩部分的權重參數(shù),A(Ci)表不分類器Ci的準確度,D(SC)表不分類器集合 SC中分類器的差異度,本發(fā)明中采用Fleiss'Kappa值來度量:
為將第i個樣本分成第j類的分類器數(shù)量;
[0114] 4、對SL2中的每個樣本分別用訓練好的k個分類器進行分類,得到的k個分類結果 與樣本的標簽構成一個新的樣本,由此可以得到I SL21個新樣本;
[0115] 5、用這些新樣本訓練一個集成分類器用來將k個分類器的預測結果進行整合。
【主權項】
1. 一種商品知識圖譜的構建方法,包括商品知識圖譜的客觀性商品分類知識的構建和 主觀性用戶觀點知識的構建,其特征是,上述主觀性用戶觀點知識的構建包含采用基于多 分類器集成的方法從用戶評論中挖掘觀點目標和觀點詞的過程,即: 步驟(1)將評論集中評論的單詞數(shù)小于設定闊值T的評論過濾掉,將評論集中剩下的每 個評論切分成句子,構成一個評論語句集S ; 步驟(2)對評論語句集S中的每個句子進行組塊識別; 步驟(3)對評論語句集S中的每個句子所出現(xiàn)的組塊兩兩構建成觀點目標和觀點詞的 候選對,并保證每個候選對中的兩個組塊的次序與它們在句子中出現(xiàn)的順序一致; 步驟(4)將每個候選對作為一個樣本,并根據(jù)預先確定的特征對樣本進行向量化后,構 成樣本集化; 步驟巧)將樣本集化劃分成大小不等的兩個集合化1和化2,其中I Sb I〉I SL2 I ; 步驟(6)在集合化1上采用不同的分類方法訓練出不同的分類器; 步驟(7)對集合SL2中的每個樣本分別用訓練好的分類器進行分類,得到的分類結果與 樣本的標簽構成一個新的樣本,由此可W得到I SL21個新樣本; 步驟(8)用所得的新樣本去訓練出一個集成分類器,并用該集成分類器將所有分類器 的預測結果進行整合,由此完成商品知識圖譜的主觀性用戶觀點知識中的觀點目標和觀點 詞的協(xié)同抽取。2. 根據(jù)權利要求1所述的一種商品知識圖譜的構建方法,其特征是,步驟(4)中,對樣本 進行向量化的特征包括候選對所處句子的句子類型、候選對中第一個組塊在句子中的位 置、候選對中兩個組塊詞性組合的類型、候選對中兩個組塊間間隔的單詞數(shù)、候選對中兩個 組塊間是否包含有標點、候選對中兩個組塊是否包含有表情符號、候選對中兩個組塊是否 落在不同的從句中和/或候選對中兩個組塊間是否包含介詞。3. 根據(jù)權利要求1所述的一種商品知識圖譜的構建方法,其特征是,上述主觀性用戶觀 點知識的構建還進一步包含直接從網(wǎng)站上獲取觀點持有者、觀點發(fā)表時間和/或觀點的URL 信息的過程。4. 根據(jù)權利要求1所述的一種商品知識圖譜的構建方法,其特征是,上述客觀性商品分 類知識的構建包含采用基于多源異構分類層次融合的方法獲取兼顧深度和廣度的商品分 類層次的過程,即: 步驟1)從不同的網(wǎng)站上獲取不同的商品分類層次,并選定其中一個分類層次作為目標 分類層次Tt; 步驟2)消除源分類層次Ts中與目標分類層次Tt沖突的分類知識,即: 首先,找出源分類層次Ts與目標分類層次Tt中所有同義的分類概念對,構成同義分類概 念對集合M; 然后,對于同義分類概念對集合M中的每個分類概念對(C ) 1,Cj,如果存在滿足W下條件 之一的分類概念對(V),/時,即 (a) 概念V是概念Cl的前驅節(jié)點并且概念/是概念C北勺后繼節(jié)點; (b) 概念V是概念Cl的后繼節(jié)點并且概念/是概念C北勺前驅節(jié)點; 則在源分類層次Ts中概念Cl,概念Cl的孩子節(jié)點變?yōu)楦拍頒l的父節(jié)點的孩子節(jié)點,得到 新的源分類層次Ts^ ; 步驟3)將新的源分類層次Ts^直接融合進目標分類層次Tt中,即: 從新的源分類層次Ts^的根節(jié)點P開始融合,對根節(jié)點P的每個孩子節(jié)點W遞歸執(zhí)行如下 操作: ① 如果不存在(W) EM,則將節(jié)點W添加為目標分類層次Tt的根節(jié)點p/的孩子節(jié)點; ② 如果存在(W) EM,則再判斷節(jié)點是否為目標分類層次Tt根節(jié)點p/的子孫;若節(jié) 點W'不是目標分類層次Tt根節(jié)點P'的子孫,則在目標分類層次Tt增加邊(P)' V ;若節(jié)點W' 是目標分類層次Tt根節(jié)點p/的子孫,則重復①和②的遞歸過程融合節(jié)點W的孩子節(jié)點。5. 根據(jù)權利要求4所述的一種商品知識圖譜的構建方法,其特征是,步驟1)中,根據(jù)下 式在分類層次集合T ={ ti,t2,…,U}中選擇分類層次作為融合的目標分類層次Tt:式中,Span(ti)為分類層次ti的跨度;Depth(ti)為分類層次ti的深度。6. 根據(jù)權利要求4所述的一種商品知識圖譜的構建方法,其特征是,上述客觀性商品分 類知識的構建還進一步包含直接從網(wǎng)站上獲取商品實例的過程。
【文檔編號】G06F17/30GK105912656SQ201610220247
【公開日】2016年8月31日
【申請日】2016年4月7日
【發(fā)明人】林煜明, 蔣向香, 楊溢, 李優(yōu), 張敬偉, 張會兵
【申請人】桂林電子科技大學