欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

對搜索引擎返回的網(wǎng)頁圖片進(jìn)行實體聚類的系統(tǒng)的制作方法

文檔序號:6630765閱讀:390來源:國知局
對搜索引擎返回的網(wǎng)頁圖片進(jìn)行實體聚類的系統(tǒng)的制作方法
【專利摘要】一種對搜索引擎返回的網(wǎng)頁圖片進(jìn)行實體聚類的系統(tǒng),包括離線系統(tǒng)和在線系統(tǒng),離線系統(tǒng)用于對所有圖片所在的源網(wǎng)頁進(jìn)行預(yù)處理,在線系統(tǒng)用于接收查詢,提交到搜索引擎并接收返回的多頁圖片結(jié)果,對于每一個頁的返回結(jié)果,找到源網(wǎng)頁的概念化元數(shù)據(jù)和文本,并在概念化的文本中抽取查詢上下文以及圖片上下文,在線系統(tǒng)分別利用元數(shù)據(jù),上下文,以及對上下文進(jìn)行概念擴(kuò)展后的擴(kuò)展上下文進(jìn)行三層聚類,并為每一個類別自動標(biāo)注相關(guān)的描述性概念,以了解每一個類別的實體。本系統(tǒng)的三層聚類算法與一般的層次聚類算法具有相同的時間復(fù)雜度,而對于特征的細(xì)分使得每一層的輸入即前一層的輸出更加精確,能有效提升聚類效果,并且給出準(zhǔn)確的描述概念。
【專利說明】對搜索引擎返回的網(wǎng)頁圖片進(jìn)行實體聚類的系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機(jī)【技術(shù)領(lǐng)域】的自然語言處理,文本挖掘,具體地,涉及對搜索引擎 返回的網(wǎng)頁圖片進(jìn)行實體聚類的系統(tǒng)。

【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的普及以及網(wǎng)頁圖片日益增長,網(wǎng)頁圖片搜索逐漸成為互聯(lián)網(wǎng)用戶的 一大日常應(yīng)用。目前的圖片搜索引擎主要返回跟查詢關(guān)鍵詞相關(guān)的圖片。而這些圖片往往 包含多個同名的實體。用戶需要從搜索結(jié)果中找到所要的圖片,需要瀏覽查看每張返回的 圖片。為了提高搜索結(jié)果的可讀性,按照不同實體區(qū)分搜索結(jié)果成為了圖像搜索引擎的一 個改良反向。
[0003] 圖像聚類是自動區(qū)分不同實體的方法。在過去的研究中,D.Cai(參見 Cai, D. , He, X. , Ma, ff. Y. , Wen, J. R. , Zhang, H. : Organizing www images based on the analysis of page layout and web link structure. ICME 2004)利用基于視覺的分 塊的方式抽取網(wǎng)頁圖片的上下文,并且利用該上下文和網(wǎng)頁鏈接信息進(jìn)行聚類。然而 由于視覺分塊的不穩(wěn)定,以及上下文中的噪聲數(shù)據(jù),聚類的精度有很大的限制;Z. Fu(參 見 Fu, Z.,Ip, H. H. S.,Lu, H.,Lu, Z. :Multi-modal constraint propagation for heterogeneous image clustering. MultiMedia 2011)提供了一種結(jié)合照圖像的標(biāo)簽和圖 像的視覺特征等多個模塊的框架,在多個圖上通過傳遞類的約束來實現(xiàn)圖像聚類。目前視 覺特征的抽取精度的不足,該框架會傳播視覺特征所包含的錯誤。而且,該方法需要在多個 圖中進(jìn)行約束傳遞,導(dǎo)致聚類效率低下,不適合于對在線圖片搜索結(jié)果的聚類。目前的圖像 聚類方法并不能提供描述性的概念去給每一個類進(jìn)行標(biāo)注。


【發(fā)明內(nèi)容】

[0004] 本發(fā)明針對現(xiàn)有技術(shù)中的不足,提供了一個對搜索引擎返回的網(wǎng)頁圖片進(jìn)行實體 聚類的系統(tǒng),使得圖片搜索結(jié)果更好地按照不同實體組織起來,并且每個實體類具有高精 度,不同實體之間具有明顯的區(qū)分度。本發(fā)明把整個框架分成了在線和離線兩個部分,大大 減小了在線聚類的時間開銷。
[0005] 為達(dá)到上述目的,本發(fā)明所采用的技術(shù)方案如下:
[0006] -種對搜索引擎返回的網(wǎng)頁圖片進(jìn)行實體聚類的系統(tǒng),包括離線系統(tǒng)和在線系統(tǒng) 兩部分,其中:
[0007] 離線系統(tǒng),用于對所有圖片所在的源網(wǎng)頁進(jìn)行預(yù)處理,包括抽取網(wǎng)頁元數(shù)據(jù),把原 網(wǎng)頁文本和元數(shù)據(jù)概念化成一組帶權(quán)概念的集合(概念向量)。概念化后的元數(shù)據(jù)和網(wǎng)頁 內(nèi)容供在線系統(tǒng)查詢使用。
[0008] 在線系統(tǒng),用于接收查詢,提交到搜索引擎并接收返回的多頁圖片結(jié)果,對于每一 個頁的返回結(jié)果,找到源網(wǎng)頁的概念化元數(shù)據(jù)和文本,并在概念化的文本中抽取查詢關(guān)鍵 詞的上下文(查詢上下文)以及圖片上下文,在線系統(tǒng)分別利用元數(shù)據(jù),上下文,以及通過 維基百科對上下文進(jìn)行概念擴(kuò)展后的擴(kuò)展上下文進(jìn)行三層聚類,并為每一個類別自動標(biāo)注 相關(guān)的描述性概念,以了解每一個類別的實體。
[0009] 所述離線系統(tǒng)進(jìn)行元數(shù)據(jù)抽取,包括對URL中有效詞條的抽取,圖片ALT屬性,對 URL有效詞條的抽取,利用二類分類器對有效和無效詞條進(jìn)行分類,并返回有效詞條。圖片 ALT屬性可以直接從HTML源代碼獲得。
[0010] 所述離線系統(tǒng)包括概念化模塊,包括對元數(shù)據(jù)和圖片原網(wǎng)頁文本的概念化,概念 化通過把元數(shù)據(jù)和文本中的詞映射到維基百科的概念上,使元數(shù)據(jù)和文本轉(zhuǎn)化成帶權(quán)概念 的集合,以計算相似度,供聚類算法使用,每個概念的權(quán)值為該概念對圖片的重要性,其定 義如下:
[0011]

【權(quán)利要求】
1. 一種對搜索引擎返回的網(wǎng)頁圖片進(jìn)行實體聚類的系統(tǒng),其特征在于,包括離線系統(tǒng) 和在線系統(tǒng),其中: 離線系統(tǒng),用于對所有圖片所在的源網(wǎng)頁進(jìn)行預(yù)處理,包括抽取網(wǎng)頁元數(shù)據(jù),把原網(wǎng)頁 文本和元數(shù)據(jù)概念化成一組帶權(quán)概念的集合,即,概念向量,概念化后的元數(shù)據(jù)和網(wǎng)頁內(nèi)容 供在線系統(tǒng)查詢使用; 在線系統(tǒng),用于接收查詢,提交到搜索引擎并接收返回的多頁圖片結(jié)果,對于每一個頁 的返回結(jié)果,找到源網(wǎng)頁的概念化元數(shù)據(jù)和文本,并在概念化的文本中抽取查詢關(guān)鍵詞的 上下文以及圖片上下文,在線系統(tǒng)分別利用元數(shù)據(jù),上下文,以及對上下文進(jìn)行概念擴(kuò)展后 的擴(kuò)展上下文進(jìn)行三層聚類,并為每一個類別自動標(biāo)注相關(guān)的描述性概念,以了解每一個 類別的實體。
2. 根據(jù)權(quán)利要求1所述的對搜索引擎返回的網(wǎng)頁圖片進(jìn)行實體聚類的系統(tǒng),其特征在 于,所述離線系統(tǒng)進(jìn)行元數(shù)據(jù)抽取,包括對URL中有效詞條的抽取,圖片ALT屬性,其中對 URL有效詞條的抽取,是利用二類分類器對有效和無效詞條進(jìn)行分類,并返回有效詞條。
3. 根據(jù)權(quán)利要求1所述的對搜索引擎返回的網(wǎng)頁圖片進(jìn)行實體聚類的系統(tǒng),其特征在 于,所述離線系統(tǒng)包括概念化模塊,用于對上下文進(jìn)行概念擴(kuò)展,文本通過概念化模塊,轉(zhuǎn) 換成帶權(quán)概念的集合,每個概念的權(quán)值為該概念對圖片的重要性,其定義如下: |D| CF-IDF(c,d) =CF(c,d)x\og-^-^ 其中,CF-IDF(c,d)為概念c對圖片d的重要性,包括兩部分的乘積:概念在圖片上下 文出現(xiàn)的頻率CF(c,d),以及反向上下文頻率,其中反向上下文頻率反比于概念出現(xiàn)過的上 下文的數(shù)量DF(C),D為所有圖片的上下文的集合。
4. 根據(jù)權(quán)利要求1所述的對搜索引擎返回的網(wǎng)頁圖片進(jìn)行實體聚類的系統(tǒng),其特征在 于,在線系統(tǒng)包括文本上下文抽取模塊,用于對所輸入的查詢關(guān)鍵詞,抽取其概念化查詢上 下文和圖片上下文。
5. 根據(jù)權(quán)利要求4所述的對搜索引擎返回的網(wǎng)頁圖片進(jìn)行實體聚類的系統(tǒng),其特征在 于,所述在線系統(tǒng)包含三層聚類算法模塊,該模塊根據(jù)抽取的元數(shù)據(jù),上下文,以及擴(kuò)展的 上下文三類特征從置信度最高的元數(shù)據(jù),到上下文,到擴(kuò)展上下文進(jìn)行三個層次的聚類,其 中: 第一層聚類,通過元數(shù)據(jù)概念化后的概念向量進(jìn)行聚合層次聚類,獲得類內(nèi)精度高的 聚類結(jié)果,并且合并每個類里所有圖片的概念向量作為類的概念向量; 第二層聚類,向每個圖片的概念向量中加入概念化上下文的概念向量,更新所有第一 層聚類后得到的類的概念向量,并進(jìn)一步對這些得到的類進(jìn)行聚合層次聚類; 第三層聚類,把每個圖片的向量替換成擴(kuò)展的概念向量,更新所有第二層聚類后得到 的類的概念向量,并進(jìn)一步對這些概念向量進(jìn)行聚合層次聚類。
6. 根據(jù)權(quán)利要求5所述的對搜索引擎返回的網(wǎng)頁圖片進(jìn)行實體聚類的系統(tǒng),其特征在 于,所使用的聚合層次聚類算法利用類的概念化進(jìn)行類的相似度計算,類的概念化通過把 類中的圖片的概念向量進(jìn)行相加,并且去除向量中值比較低的概念,得到高精度的類概念, 類的概念化用如下公式定義:
其中,C為概念,C為類,d為類中圖片,CF-IDF(c,d)為概念對圖片的重要性。
7. 根據(jù)權(quán)利要求5所述的對搜索引擎返回的網(wǎng)頁圖片進(jìn)行實體聚類的系統(tǒng),其特征在 于,第三層聚類通過維基百科進(jìn)行上下文的擴(kuò)展,把圖片的概念向量替換成擴(kuò)展的概念向 量,并目1更新毎個類的概念向量,更新定義為如下公式:
其中,CF-IDF〇,dCi)為概念c對概念Ci的維基百科描述頁面的重要性,V。為當(dāng)前類 概念向量所有概念的集合,Ci為當(dāng)前類概念向量中的概念,上下文擴(kuò)展過程通過選取值最 大的前k個概念對噪聲數(shù)據(jù)進(jìn)行過濾。
8. 根據(jù)權(quán)利要求1所述的對搜索引擎返回的網(wǎng)頁圖片進(jìn)行實體聚類的系統(tǒng),其特征在 于,利用所述三層聚類后得出的類概念向量給每個圖片類標(biāo)注相關(guān)的描述概念,選取每個 類的概念向量中值最高的前幾個概念用于描述該類所代表的實體。
【文檔編號】G06F17/30GK104317867SQ201410554684
【公開日】2015年1月28日 申請日期:2014年10月17日 優(yōu)先權(quán)日:2014年10月17日
【發(fā)明者】朱其立, 趙凱祺, 蔡智源, 隋清宇, 魏恩勛 申請人:上海交通大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
富阳市| 桃园市| 阜新市| 钦州市| 德格县| 浮梁县| 伊宁市| 沙田区| 鸡东县| 体育| 邻水| 江陵县| 龙里县| 多伦县| 敦煌市| 芒康县| 旬邑县| 慈溪市| 博罗县| 大荔县| 个旧市| 霍林郭勒市| 上饶县| 望都县| 扬中市| 利津县| 长沙县| 江北区| 华蓥市| 依兰县| 军事| 共和县| 芷江| 嵊州市| 乌兰县| 原阳县| 安阳县| 洛浦县| 澎湖县| 前郭尔| 周宁县|