一種基于搜索引擎的概念語義相似度度量方法
【專利摘要】本發(fā)明公開了基于搜索引擎的概念語義相似度度量方法,其將頁面計數、語義片段和已顯示搜索結果的數量集成形成的一種新方法。從而有效的移除了搜索引擎數據中存在的噪聲和冗余度,有效解決現有技術所存在的問題。
【專利說明】一種基于搜索引擎的概念語義相似度度量方法
【技術領域】
[0001]本發(fā)明涉及數據挖掘領域,具體為一種度量概念語義相似度方法。
【背景技術】
[0002]在web挖掘,信息檢索和自然語言處理中,準確地度量概念間的語義相似度是一個重要的問題。網絡挖掘應用中如社區(qū)萃取,關系檢測,和概念消歧,要求能夠準確地度量概念或實體之間的語義相似度。在信息檢索中,一個主要的問題是在用戶查詢時要檢索出一組語義相關的文件給用戶。對于各種自然語言處理任務,比如單詞語義消歧,文本蘊涵,自動文本摘要,高效的估計詞與詞之間的語義相似度是至關重要的。
[0003]在之前的研究中,有很多基于網站基礎上的語義相似性度量的研究,主要分為以下三個方面:
[0004](I).根據搜索引擎返回的網頁數量來度量,返回的數量越大說明概念間的相似度越大。
[0005](2).根據文件的下載排行的數量,然后應用頂級文本處理技術來度量。這些度量是建立這些假設基礎上,相似的上下文意味著相似的意義,即單詞出現在類似的詞匯環(huán)境有著密切的語義關系。
[0006](3).結合(I)和(2)來度量。
[0007]綜上所述,度量概念的語義相似度,但是度量關聯(lián)關系的主觀和客觀的方法中很少去除噪聲和網頁片段的冗余度。
[0008]目前已經提出了許多不同的概念語義相似度測量方法,這些方法主要分為兩個方面:基于分類的方法和基于網絡的方法。基于分類的方法是使用信息理論和層次分類來計算語義相似度,然而基于網絡的方法與之相反,它將網絡作為一個動態(tài)、實時更新的語料庫,基于語料庫來計算語義相似度。
[0009]信息內容可以用來評價概念語義相似度,概念C的信息內容是負的對數似然值,即是指發(fā)生概念C的可能性,根據信息內容的思想開發(fā)了相似度詞匯集軟件來度量一對概念的語義相似度。然而兩個詞匯的距離分類是測量語義相似度更自然直接的方式。從一個詞匯到另一個詞匯的距離越短,他們就越相似。由于考慮到線、深度、密度的類型,通過計算邊緣密度、邊緣深度、邊緣強度的公式來測量概念語義相似度,也是一種好方法。信息內容和兩個詞匯的距離組合在一起形成的模型可以測量概念語義相似度,然而使用空間向量模型和隨機漫步也可以測量概念語義相似度。過去有人探索了大量信息資源的語義相似度的定義,這些資源是由詞典分類的結構化的語義信息和語料庫的信息內容組成。為了調查信息資源的有效性,實施了大量的使用各種可能的信息資源的技術。因為新單詞不斷產生,新的含義也被分配到存在的詞匯中。手動的包含敘詞表的軟件比如詞匯集抓取新詞匯和新含義是耗資巨大的,如果可能的話,這使基于分類的方法在相關Web任務中顯得很不靈活。
[0010]與基于分類的方法不同,逐點互信息方法是使用Web搜索引擎返回的點擊數量來識別同義詞,共生雙重檢查是將Web作為更新的語料庫,這種方法的核心是搜索引擎的排名算法。相似的內核函數可以通過google定義搜索到的概念語義相似度,相似的內核函數的功能是在一個大規(guī)模的系統(tǒng)中向搜索引擎使用者建議相關的詢問。基于語料庫的方法即叫做二階共生PMI,來計算兩個目標詞匯的語義相似度。該方法是使用相互的信息去分類兩個目標詞匯的一系列重要的相鄰詞匯。Web搜索引擎提供的頁面計數和段落也可以測量語義相似度。這種方法需要借助于一些從段落中自動提取的語法模式。在這個方法中,從排名前900的片段中提取200個模式,200個模式來自于4562471獨一無二的模式。因為排名靠前的模式隨著時間的推移而改變,大量的獨一無二的模式的再生讓這種方法很耗時,因此,提取模式極大地影響了這個方法。
[0011]綜上所述,目前存在的基于網站的度量語義相似度方法缺少相關的機制處理網站數據中的噪聲和冗余度。
【發(fā)明內容】
[0012]針對現有度量語義相似度方法無法處理網站數據中的噪聲和冗余度的問題,本發(fā)明的目的在于提供一種基于搜索引擎的概念語義相似度度量方法,有效移除了搜索引擎數據中存在的噪聲和冗余度。
[0013]為了達到上述目的,本發(fā)明采用如下的技術方案:
[0014]一種基于搜索引擎的概念語義相似度度量方法,所述度量方法包括如下步驟:
[0015](I)網頁計數,由搜索引擎搜索相關概念,并返回相應的網頁數量;
[0016](2)語義片段,通過搜索引擎搜索提供包括所有概念的語義片段,并計算包括所有概念的語義片段占搜索引擎搜索返回的所有語義片段的比例;
[0017](3)已顯示的搜索結果的數量,通過搜索引擎搜索顯示搜索到的結果,并提供已顯示的結果的數量;
[0018](4)根據步驟(I)至(3)提供的結果進行概念語義相似度計算。
[0019]在本發(fā)明的優(yōu)選實例中,在步驟(I)中通過搜索引擎搜索待度量相似度的概念P、概念q,同時還搜索表示概念P和概念q共現的概念P Λ q。
[0020]進一步的,所述步驟(2)中通過搜索引擎搜索概念ρ Λ q,并查詢返回的網頁數,計算其在排名靠前的η個片段中所占的比例,記為SS (ρ Λ q)。
[0021]進一步的,所述步驟(3)通過搜索引擎提供的重復搜索接口省略一些與已經顯示的搜索結果相類似的條目。
[0022]進一步的,所述步驟(4)中利用步驟(2)和(3)得到的結果對步驟(I)中返回的相應網頁數量進行分別進行消除噪聲和冗余度處理,并對處理得到的結果運用逐點互信息方法進行語義相似度度量。
[0023]根據上述方案提供的度量方法,其是將頁面計數、語義片段和已顯示搜索結果的數量集成形成的一種新方法。該方案通過語義片段的句子中同時包括概念P和概念q,即概念P和概念q在一句話中共現來移除Web片段中的噪聲;同時通過搜索引擎提供的“重復搜索”接口省略一些與已經顯示的搜索結果相類似的條目,以此達到移除Web片段中的冗余度的目的。由此,本方案能夠有效的移除搜索弓I擎數據中存在的噪聲和冗余度,極大的提高了概念語義相似度度量的效率和精度?!緦@綀D】
【附圖說明】
[0024]以下結合附圖和【具體實施方式】來進一步說明本發(fā)明。
[0025]圖1為本發(fā)明實施的原理框圖。
【具體實施方式】
[0026]為了使本發(fā)明實現的技術手段、創(chuàng)作特征、達成目的與功效易于明白了解,下面結合具體圖示,進一步闡述本發(fā)明。
[0027]本發(fā)明的目的是提供一種去除網頁片段的噪聲和冗余度來計算概念語義相似度方法,為達到上述目的,本發(fā)明提供的方法包括:
[0028]語義相似度是計算機可處理形式表示的信息概念間的匹配程度,本發(fā)明提供了一種基于搜索引擎的度量概念語義相似度的方法。該度量方法主要包括如下三個步驟:A、網頁計數步驟;B、語義片段處理步驟;C、統(tǒng)計已顯示的搜索結果的數量步驟。
[0029]對于步驟A中的網頁計數,即由Web搜索引擎搜索相應的概念,并統(tǒng)計Web搜索引擎所返回的對應的網頁數量。具體的用Web搜素引擎搜索概念P、概念q、概念P和概念q共現即概念P Λ q ;其中通過Web搜索引擎搜索概念ρ,找到搜索結果的總條數N (P)、通過Web搜索引擎搜索概念q,找到搜索結果的總條數N (q)、通過Web搜索引擎搜索概念ρ Λ q找到搜索結果的總條數N (ρ Λ q)。
[0030]對網頁計數中得到的各搜索結果運用逐點互信息方法即PMI (p,q),即可實現概念P和概念q之間相似度的度量。其中PMI (P,q)就是搜索引擎的網頁數量N (N=IOll)乘以概念P和概念q共現的網頁數與概念P的網頁數和概念q的頁面數的乘積的比值,在對這個比值進行對數運算,將運算的結果與對數的搜索引擎的網頁數量作除法運算。
[0031]但是這樣直接利用網頁計數中得到的各搜索結果進行度量計算,將無法移除搜索引擎數據中存在的噪聲和冗余度。
[0032]為此,本發(fā)明提供的方案通過B、語義片段處理步驟和C、統(tǒng)計已顯示的搜索結果的數量來分別移除搜索引擎數據中存在的噪聲和冗余度。
[0033]首先,對于語義片段處理,語義片段是指通過Web搜索引擎搜索提供一段與搜索的內容相類似的語義信息。
[0034]在本方案中,通過在一句話中同時包括概念P和概念q,即概念P和概念q在一句陳述句、感嘆句或疑問句中共現。若概念P和概念q不同時出現在一句話中,則搜索引擎返回的信息可能只關于概念P或概念q,或者返回的信息包括概念P和概念q,但概念P和概念q在返回的信息中并沒有關聯(lián)。因此在語義片段的句子中同時包括概念P和概念q可以精確地計算出PMI (p,q)公式中的概念P和概念q共現的網頁數。
[0035]具體,本方案中,通過查詢概念P Λ q返回的網頁數,計算其在排名靠前的η個片段中所占的比例,記為SS (P Λ q),用SS (P Λ q)*N (ρ Λ q)代替PMI (p,q)公式中的N(pAq)。由此來移除Web片段中的噪聲。
[0036]由于本方案是基于搜索引擎的,這里所述的η個片段是用戶輸入關鍵詞后搜索引擎用片段的形式展現的搜索結果,用戶通過閱讀片段判斷是否是自己需要的內容,如果符合用戶期望,用戶會點擊片段進入相關的網頁。
[0037]由于,輸入關鍵詞后返回的片段中不一定都包含ρ和q,此處計算的比例=包含P和q概念的片段/搜索法引擎返回的片段數的總和。
[0038]再者,對于統(tǒng)計已顯示的搜索結果的數量,即通過Web搜索引擎搜索,顯示搜索到的結果,并提供已顯示的結果的數量,其數量已經省略了一些與已經顯示的搜索結果相類似的條目。這里通過Web搜索引擎提供的已顯示結果的數量,其是通過Web搜索引擎(如google)提供的“重復搜索”接口省略一些與已經顯示的搜索結果相類似的條目,如果不使用Web搜索引擎(如google)提供的“重復搜索”借口,那么搜索引擎返回的頁面數達到1000,且返回的搜索結果與搜索的內容不一定對應,因此使用已經顯示的搜索結果可以改進PMI (p,q)公式中搜索引擎返回的網頁數量。
[0039]具體的,本方案中通過得到概念P、概念q和概念P Λ q已顯示的搜索結果的數量分別記為 R (P)、R (q)和 R (P Λ q),并用 R (P) *N (P)、R (q) *N (q)和 R (ρ Λ q) *Ν(P Aq)分別代替PMI (P,q)公式中的N (p)、N (q)和N (ρ Λ q)。由此來移除Web片段中的冗余度。
[0040]以下通過一具體度量實例來進一步說明上述方案。
[0041]該度量實例基于一概念語義相似度的度量系統(tǒng)來實現,該度量系統(tǒng)主要包括網頁計數模塊、語義片段處理模塊、已顯示的搜索結果數量模塊以及相似度計算模塊,這些模塊分別能夠實現上述對應的功能。
[0042]參見圖1,其所示為在該度量系統(tǒng)的基礎上,度量概念ρ和概念q的語義相似度的過程。具體過程如下:
[0043]步驟一:網頁計數模塊與Web搜素引擎(為google搜素引擎,下同)相配合,利用Web搜素引擎搜索概念P、概念q、概念P和概念q共現即概念P Λ q。
[0044]步驟二:網頁計數模塊通過Web搜索引擎搜索概念p,找到搜索結果的總條數N(P);通過Web搜索引擎搜索概念q,找到搜索結果的總條數N (q);通過Web搜索引擎搜索概念P Λ q找到搜索結果的總條數N (ρ Λ q)。
[0045]步驟三:設置閾值α。
[0046]該閾值α主要用于步驟五種的比較判斷,其具體的值根據具體的要求進行設定。
[0047]步驟四:由語義片段處理模塊確定在語義片段的句子中概念ρ和概念q共現的語義片段所占的比例。語義片段處理模塊從步驟一中搜索引擎搜索概念P Λ q的搜索結果中,查詢搜索引擎搜索概念P Aq返回的網頁數,同時在返回的排名靠前的η個片段中,計算概念P Λ q所占的比例,記為SS (ρ Λ q)。
[0048]步驟五:語義片段處理模塊將計算得到的比例SS (ρ Λ q)與之前設定的閾值α進行比較,當SS (P Λ q) > α時,運行步驟六;否則認定概念P和概念q的語義相似度SPPMI (ρ, q) =0。
[0049]步驟六:已顯示的搜索結果數量模塊與搜索引擎配合,分別統(tǒng)計概念P、概念q和概念P Aq已顯示的搜索結果的數量,并將它們分別記為R (P)、R (q)和R (pAq)。
[0050]步驟七:相似度計算模塊接受網頁計數模塊、語義片段處理模塊以及已顯示的搜索結果數量模塊中處理得到的數據,并根據接受到數據分別計算N (p)*R (ρ)、N (q)*R(q)和 SS (ρ Λ q) *N (ρ Λ q) *R (ρ Λ q)。
[0051]步驟八:相似度計算模塊跟計算得到的結果利用如下公式,計算概念p和概念q的語義相似度SPPMI (p,q):[0052]
【權利要求】
1.一種基于搜索引擎的概念語義相似度度量方法,其特征在于,所述度量方法包括如下步驟: (1)網頁計數,由搜索引擎搜索相關概念,并返回相應的網頁數量; (2)語義片段,通過搜索引擎搜索提供包括所有概念的語義片段,并計算包括所有概念的語義片段占搜索引擎搜索返回的所有語義片段的比例; (3)已顯示的搜索結果的數量,通過搜索引擎搜索顯示搜索到的結果,并提供已顯示的結果的數量; (4)根據步驟(I)至(3)提供的結果進行概念語義相似度計算。
2.根據權利要求1所述的一種基于搜索引擎的概念語義相似度度量方法,其特征在于,在步驟(I)中通過搜索引擎搜索待度量相似度的概念P、概念q,同時還搜索表示概念P和概念q共現的概念P Λ q。
3.根據權利要求1所述的一種基于搜索引擎的概念語義相似度度量方法,其特征在于,所述步驟(2)中通過搜索引擎搜索概念P Λ q,并查詢返回的網頁數,計算其在排名靠前的η個片段中所占的比例,記為SS (pAq)o
4.根據權利要求1所述的一種基于搜索引擎的概念語義相似度度量方法,其特征在于,所述步驟(3)通過搜索引擎提供的重復搜索接口省略一些與已經顯示的搜索結果相類似的條目。
5.根據權利要求1所述的一種基于搜索引擎的概念語義相似度度量方法,其特征在于,所述步驟(4)中利用步驟(2)和(3)得到的結果對步驟(I)中返回的相應網頁數量進行分別進行消除噪聲和冗余度處理,并對處理得到的結果運用逐點互信息方法進行語義相似度度量。
【文檔編號】G06F17/27GK103678642SQ201310713182
【公開日】2014年3月26日 申請日期:2013年12月20日 優(yōu)先權日:2013年12月20日
【發(fā)明者】徐崢, 齊力, 梅林 , 胡傳平, 支鳳麟, 梁辰, 駱祥峰, 魏曉, 張順香 申請人:公安部第三研究所