欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多媒體數(shù)據(jù)挖掘的地標(biāo)信息檢索方法

文檔序號:6513705閱讀:229來源:國知局
一種基于多媒體數(shù)據(jù)挖掘的地標(biāo)信息檢索方法
【專利摘要】本發(fā)明公開了一種基于多媒體數(shù)據(jù)挖掘的地標(biāo)信息檢索方法,該方法包括以下步驟:構(gòu)建地標(biāo)數(shù)據(jù)庫,所述地標(biāo)數(shù)據(jù)庫包括地標(biāo)列表、地標(biāo)圖片集以及每張地標(biāo)圖片對應(yīng)的元數(shù)據(jù)信息;建立時空主題模型,所述時空主題模型用于從所述地標(biāo)數(shù)據(jù)庫中挖掘全局主題集,位置主題集和時間主題集,所述主題集中的每一主題由來自文本詞典的單詞和來自視覺詞典的視覺詞共同表示;對于輸入的檢索對象,利用所述時空主題模型進(jìn)行主題挖掘,并將得到的地標(biāo)檢索結(jié)果以主題的形式顯示出來。本發(fā)明解決了旅游推薦中的地標(biāo)信息檢索和總結(jié)問題,以及地標(biāo)各類主題尤其是時間主題挖掘的問題,并彌補了地標(biāo)信息總結(jié)中單一文本模態(tài)所帶來的不足。
【專利說明】一種基于多媒體數(shù)據(jù)挖掘的地標(biāo)信息檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及多媒體數(shù)據(jù)挖掘領(lǐng)域,特別是一種基于多媒體數(shù)據(jù)挖掘的地標(biāo)信息檢索方法。
【背景技術(shù)】
[0002]旅游業(yè)的迅速發(fā)展使得旅游逐漸成為人們?nèi)粘I钪械囊徊糠?。地?biāo)由于其獨特的物理,歷史和文化特征而成為人們旅游的必選之地。圖片分享網(wǎng)站的迅速發(fā)展使得地標(biāo)圖片資源成爆炸式增長。用戶在享受這些豐富地標(biāo)資源的同時也面臨著信息過載的困擾,如何對這些地標(biāo)資源進(jìn)行有效的組織和結(jié)構(gòu)化的總結(jié),幫助用戶快速地了解地標(biāo)的各個方面,從而制定合適的旅行計劃,已成為學(xué)術(shù)界和工業(yè)界共同關(guān)心的課題。比較常見的方法是對收集的某一地理區(qū)域的圖片集分別利用各種模態(tài)信息比如地理標(biāo)簽,文本和視覺特征通過一般的聚類方法得到對地標(biāo)信息的總結(jié)。這些聚類方法由于不是基于語義的聚類,因而無法保證聚類的語義一致性。目前能夠改進(jìn)聚類結(jié)果實現(xiàn)語義層面上的多方面總結(jié)的方法是主題模型。現(xiàn)有的基于地理位置的主題模型能夠挖掘該位置多個方面的主題,這些方法或者針對地標(biāo)的全局主題,比如所有地標(biāo)都具有的屬性,或者針對地標(biāo)的位置主題,比如地標(biāo)獨特的外觀,但是忽略了地標(biāo)在時間方面的挖掘。這種與時間相關(guān)的主題往往在制定旅行計劃時,非常重要。例如日本著名地標(biāo)清水寺(Kiyomizu-dera),除了本身所具有的位置主題寺廟風(fēng)格外,兩類和時間相關(guān)的主題包括春天的樓花(cherry blossom)和秋天的楓葉(red maple leaves)。如果將諸如清水寺這些地標(biāo)的位置主題和時間主題同時展示給用戶,用戶很容易根據(jù)自己的偏好決定何時去什么地方旅游,這非常便于用戶制定旅游規(guī)劃。
[0003]此外,現(xiàn)有的基于位置的主題模型主要應(yīng)用單模態(tài)的文本信息挖掘某一位置的多個方面,而多模態(tài)信息比如文本信息和視覺信息融合在一起就能夠相互補充和增強,彌補單一文本模態(tài)所帶來的不足,因而能夠更加有效的挖掘主題。
[0004]綜上所述,充分利用多模態(tài)信息包括文本信息和視覺信息能夠更加有效的挖掘地標(biāo)主題,同時如果能從和地標(biāo)相關(guān)的信息中挖掘出多類地標(biāo)主題,包括全局主題,位置主題和時間主題,就能夠更好的利用這些主題全面的總結(jié)地標(biāo),進(jìn)而可以幫助用戶更好的進(jìn)行旅游規(guī)劃。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的目的是通過提供地標(biāo)的多類主題尤其是時間主題,為用戶提供全面的地標(biāo)總結(jié),便于用戶根據(jù)自己的偏好進(jìn)行旅游規(guī)劃。為此,提出了一種基于多媒體數(shù)據(jù)挖掘的地標(biāo)信息檢索方法。
[0006]為實現(xiàn)上述目的,本發(fā)明提供一種基于多媒體數(shù)據(jù)挖掘的地標(biāo)信息檢索方法,該方法包括以下步驟:
[0007]步驟SI,構(gòu)建地標(biāo)數(shù)據(jù)庫,所述地標(biāo)數(shù)據(jù)庫包括地標(biāo)列表、地標(biāo)圖片集以及每張地標(biāo)圖片對應(yīng)的元數(shù)據(jù)信息;[0008]步驟S2,建立時空主題模型,所述時空主題模型用于從所述地標(biāo)數(shù)據(jù)庫中挖掘全局主題集,位置主題集和時間主題集,所述主題集中的每一主題由來自文本詞典的單詞和來自視覺詞典的視覺詞共同表示;
[0009]步驟S3,對于輸入的檢索對象,利用所述時空主題模型進(jìn)行主題挖掘,并將得到的地標(biāo)檢索結(jié)果以主題的形式顯示出來。
[0010]本發(fā)明的有益效果:本發(fā)明通過地標(biāo)數(shù)據(jù)庫構(gòu)建,時空主題挖掘和主題可視化最終提出一種基于多媒體數(shù)據(jù)挖掘的地標(biāo)信息檢索方法,解決了旅游推薦中的地標(biāo)信息檢索和總結(jié)問題。一方面時空主題模型同時融入了位置和時間情景信息,有效解決了地標(biāo)各類主題尤其是時間主題挖掘的問題;另一方面時空主題模型能夠融入多模態(tài)信息挖掘主題,多模態(tài)信息融合在一起能夠相互補充和增強,彌補了地標(biāo)信息總結(jié)中單一文本模態(tài)所帶來的不足。
【專利附圖】

【附圖說明】
[0011]圖1是本發(fā)明基于多媒體數(shù)據(jù)挖掘的地標(biāo)信息檢索方法的流程圖;
[0012]圖2是本發(fā)明中時空主題模型的圖表示;
[0013]圖3,圖4和圖5是利用本發(fā)明方法對于地標(biāo)“金門大橋(Golden Gate Bridge)”,“華盛頓紀(jì)念碑(Washington Monument)”和“特拉法爾加廣場(Trafalgar Square)”的可視化檢索結(jié)果;
[0014]圖6和圖7是利用本發(fā)明方法分別在時間段“04/01/2011-04/30/2011”和“07/01/2012-07/31/2012 ”檢索得到的對應(yīng)地標(biāo)及其相應(yīng)的時間主題。
【具體實施方式】
[0015]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。
[0016]圖1為本發(fā)明基于多媒體數(shù)據(jù)挖掘的地標(biāo)信息檢索方法的流程圖,所述方法通過挖掘地標(biāo)的三類主題即全局主題,位置主題和時間主題來實現(xiàn)旅游推薦中的地標(biāo)信息檢索和總結(jié)。如圖1所示,所述方法包括三個部分:1)地標(biāo)數(shù)據(jù)庫構(gòu)建,2)時空主題建模,3)主題可視化,具體來說,所述方法包括以下步驟:
[0017]步驟SI,構(gòu)建地標(biāo)數(shù)據(jù)庫,所述地標(biāo)數(shù)據(jù)庫包括地標(biāo)列表、地標(biāo)圖片集以及每張地標(biāo)圖片對應(yīng)的元數(shù)據(jù)信息;
[0018]所述步驟SI進(jìn)一步包括以下步驟:
[0019]步驟S1.1,選擇多個地標(biāo)組成地標(biāo)列表;
[0020]對于地標(biāo)的選擇,可以首先從相關(guān)旅游網(wǎng)頁中選取旅游業(yè)較為發(fā)達(dá)的一些國家,再對于每個國家,從相關(guān)旅游網(wǎng)站中選取一些著名的地標(biāo),最后將這些地標(biāo)構(gòu)成一個地標(biāo)列表。
[0021]步驟S1.2,收集所述地標(biāo)列表中各個地標(biāo)的圖片組成地標(biāo)圖片集,并收集每張地標(biāo)圖片對應(yīng)的元數(shù)據(jù)信息,所述元數(shù)據(jù)信息包括地標(biāo)圖片的標(biāo)簽等相關(guān)文本信息、時間信息和地理標(biāo)簽信息;
[0022]收集地標(biāo)圖片時,可首先利用地標(biāo)名稱作為關(guān)鍵詞從圖片分享網(wǎng)站中下載相關(guān)圖片,但是由于一些地標(biāo)名稱可能具有多義性,而且一些圖片的標(biāo)注可能包含有多個地標(biāo),因此僅僅使用地標(biāo)名稱作為關(guān)鍵詞收集名稱圖片必然導(dǎo)致收集到的圖片中含有大量的噪音。為此,本發(fā)明首先采用地標(biāo)名和相應(yīng)城市名的組合作為關(guān)鍵詞進(jìn)行檢索,得到地標(biāo)圖片集。例如,為了下載地標(biāo)大本鐘“Big Ben”的圖片,則輸入的檢索關(guān)鍵詞應(yīng)為“Big Ben,London”,因為城市名稱帶來的約束會大大降低圖片的噪音;
[0023]其次,使用可以獲得的地理經(jīng)緯度信息對于檢索到的地標(biāo)圖片集進(jìn)行去噪。具體來說,從相關(guān)網(wǎng)站中獲得每一個地標(biāo)的經(jīng)緯度信息作為相應(yīng)地標(biāo)的聚類中心,通過一般的聚類方法,比如k均值方法,選擇對應(yīng)每個聚類中心的圖片集作為該地標(biāo)的圖片集,而對于不含經(jīng)緯度信息的圖片,如果地標(biāo)標(biāo)注中含有的地標(biāo)名稱超過兩個,則直接將其從圖片集中移除。
[0024]步驟S2,建立時空主題模型,所述時空主題模型用于從所述地標(biāo)數(shù)據(jù)庫中挖掘全局主題集,位置主題集和時間主題集,所述主題集中的每一主題由來自文本詞典的單詞和來自視覺詞典的視覺詞共同表示;
[0025]考慮到與地標(biāo)相關(guān)的文檔通常會涉及到三類主題:全局主題,位置主題和時間主題,所述全局主題是大部分地標(biāo)都擁有的主題,即某一地標(biāo)的通用主題,位置主題描述某一地標(biāo)特有的外觀或風(fēng)格,而時間主題則描述某一地標(biāo)在特定時間內(nèi)的主題,如果能夠挖掘出這三類主題,通過這些主題就可以實現(xiàn)對地標(biāo)的全面總結(jié)進(jìn)而便于用戶的地標(biāo)瀏覽和旅游規(guī)劃,為此本發(fā)明提出了時空主題模型,通過所述時空主題模型,不僅可以得到每個地標(biāo)本身特有的外觀和風(fēng)格,還可以得到某一地標(biāo)在不同時刻的顯著性景色和發(fā)生在該地標(biāo)附近的不同活動。
[0026]圖2示出了本發(fā)明中時空主題模型的圖表示,設(shè)相應(yīng)的文檔集合為D,位置集合為L,時間間隔集合為T,文檔集合D中的每一個文檔d包括一幅圖片和相應(yīng)的元數(shù)據(jù)信息,比如文本信息,并且每個文檔對應(yīng)一個地標(biāo)位置Id e L和一個時間標(biāo)簽td e T,同時文檔集 合D覆蓋一個字典集合Y。
[0027]首先介紹一下文檔與主題以及主題和單詞之間的關(guān)系:如果給定三類主題集:全局主題集Z8,位置主題集Zlt^和時間主題集Ztl,則文檔d中的每個單詞y e Y可通過以下三種路徑生成:(I)通過基于文檔d的全局主題分布Θ d生成的全局主題2£2-,得到單詞y,這里4; (II)通過基于文檔d對應(yīng)的具體某一地標(biāo)位置Id的位置主題分布Mrf生成的位置主題z e Z1tc得到單詞y,這里K產(chǎn);和(III)通過基于文檔d的某一具體地標(biāo)和時間的主題分布辦u,,生成的時間主題z e Ztl得到單詞y,這里隊山、=。
[0028]另外,設(shè)變量Xe {gl,loc,tl}服從基于某一文檔d的多項式分布Multi (JId),其中,{gl, loc, tl}是由gl, loc, tl組成的集合,gl表示全局主題,1c表示位置主題,tl表示時間主題,nd={p(x|d)}xe {gl,1(x;,tl}表示某一文檔d屬于其中某一類主題的概率。
[0029]設(shè)1^為位置主題分布,其為一維度為IlIxIz1I的矩陣,I.I表示求取.的基,φαι)為基于位置和時間的主題分布,其為一維度為ILTlxIztlI的矩陣,其中LTl = ILl X |τ|。φ:為某一類主題X的單詞分布,其為一維度為IzxIxlYl的矩陣,這里ΨΙ = {^ν?,-ο,其中 X e {gl, loc, tl}。
[0030]基于上述,文檔集合D中的文檔d的具體生成過程可描述如下:
[0031]對于文檔d中的每一個單詞yd,n e Y,其中,η為文檔d中單詞的序號,首先,對于該單詞yd,n的主題歸屬xd,n進(jìn)行抽樣,其中xd,n~Multi Od);如果xd,n=gl,即該單詞yd,n屬于全局主題,則在所述全局主題集Zgl中進(jìn)行采樣,得到與該單詞對應(yīng)的某一全局主題Zd,n,其中zd,n~Multi ( Θ d), Θ d表示全局主題分布;如果xd,n=loc,即該單詞yd,n屬于位置主題,則在所述位置主題集Zlt^中進(jìn)行采樣,得到與該單詞對應(yīng)的某一位置主題
z d,n,其中
【權(quán)利要求】
1.一種基于多媒體數(shù)據(jù)挖掘的地標(biāo)信息檢索方法,其特征在于,該方法包括以下步驟: 步驟SI,構(gòu)建地標(biāo)數(shù)據(jù)庫,所述地標(biāo)數(shù)據(jù)庫包括地標(biāo)列表、地標(biāo)圖片集以及每張地標(biāo)圖片對應(yīng)的元數(shù)據(jù)信息; 步驟S2,建立時空主題模型,所述時空主題模型用于從所述地標(biāo)數(shù)據(jù)庫中挖掘全局主題集,位置主題集和時間主題集,所述主題集中的每一主題由來自文本詞典的單詞和來自視覺詞典的視覺詞共同表示; 步驟S3,對于輸入的檢索對象,利用所述時空主題模型進(jìn)行主題挖掘,并將得到的地標(biāo)檢索結(jié)果以主題的形式顯示出來。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟SI進(jìn)一步包括以下步驟: 步驟S1.1,選擇多個地標(biāo)組成地標(biāo)列表; 步驟S1.2,收集所述地標(biāo)列表中各個地標(biāo)的圖片組成地標(biāo)圖片集,并收集每張地標(biāo)圖片對應(yīng)的元數(shù)據(jù)信息,所述元數(shù)據(jù)信息包括地標(biāo)圖片的標(biāo)簽等相關(guān)文本信息、時間信息和地理標(biāo)簽信息。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述全局主題為某一地標(biāo)的通用主題,所述位置主題描述某一地標(biāo)特有的外觀或風(fēng)格,所述時間主題描述某一地標(biāo)在特定時間內(nèi)的主題。
4.根據(jù)權(quán)利要求1所述的方`法,其特征在于,所述時空主題模型的生成包括以下步驟: 首先,對所述時空主題模型中的文檔集合D進(jìn)行似然估計:1^n)=ΣΣ/7(6/-ι')χlosi =1c/) Σ +A-V=/Vx-μ/) [ ψ: __<+/)(χ=--μ/)ζ《,./.Χ, I d&Dy&Y2bZ&1zeZ*' 其中,Y表示文檔集合D覆蓋的一個字典集合,n (d, y)表示單詞y在文檔集合D中的文檔d中出現(xiàn)的頻率,p(x=gl |d)表示文檔d屬于全局主題的概率,表示全局主題集,Θ d z表不基于文檔d的全局主題分布Qd中的一個兀素表不全局主題的單詞分布中的一個元素,P(x=loc|d)表示文檔d屬于位置主題的概率,Zltrc表示位置主題集,表示文檔d對應(yīng)的具體某一地標(biāo)位置Id的位置主題分布中的一個元素,(6(6:表示位置主題的單詞分布中的一個元素,P(x=tl I d)表示文檔d屬于時間主題的概率,Ztl表示時間主題集,表示文檔d的某一具體地標(biāo)和時間的主題分布辦中的一個元素,ψ\表示時間主題的單詞分布中的一個兀素; 然后,計算主題集合t和位置集合L之間的相關(guān)性I1 ; 然后,計算每個時間主題與對應(yīng)的位置和時間之間的相關(guān)性I(U); 然后,通過求解如下優(yōu)化問題對于待定參數(shù)進(jìn)行估計,所述待定參數(shù)包括:文檔中各類主題比例的分布P(x|d),基于文檔的全局主題分布0d,基于位置的主題分布Ψι,基于時間和位置的主題分布Φ (u),基于主題的詞分布爐;^,X e {gl,loc,tl}: max (L(D)+ λ J1+ λ 2Ι (t;1)), 其中,λ i和λ 2為正則化項系數(shù);最后,根據(jù)求得的參數(shù)得到全局主題集,位置主題集和時間主題集。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,主題集合Zltrc和位置集合L之間的相關(guān)性通過他們之間的互信息來表示:
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,每個時間主題與對應(yīng)的位置和時間之間的相關(guān)性定義為:
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,來自詞典集Y的每個詞I以某一概率值賦予每個主題,這些概率值構(gòu)成的長向量實現(xiàn)了對每個主題的特征表示,而高概率值的文本詞則構(gòu)成了對這個主題的語義表示。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S3中,顯示所述地標(biāo)檢索結(jié)果時,使用具有代表性的關(guān)鍵詞和圖片來共同表示相應(yīng)的主題。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,對于與某一主題相關(guān)的關(guān)鍵詞,通過主題-詞分布的概率對其進(jìn)行排序,位于前面的關(guān)鍵詞認(rèn)為是該主題具有代表性的關(guān)鍵詞。
10.根據(jù)權(quán)利要求8所述的方法,其特征在于,選擇具有代表性的圖片時,根據(jù)下式計算主題Zi和文檔4之間的相似度:
【文檔編號】G06F17/30GK103488769SQ201310451597
【公開日】2014年1月1日 申請日期:2013年9月27日 優(yōu)先權(quán)日:2013年9月27日
【發(fā)明者】徐常勝, 閔巍慶, 鮑秉坤 申請人:中國科學(xué)院自動化研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
渝中区| 涞源县| 吴江市| 连云港市| 朝阳区| 特克斯县| 台湾省| 庆城县| 高青县| 泸定县| 瓮安县| 米易县| 兴海县| 鹤庆县| 江达县| 全南县| 九龙城区| 丰台区| 吴川市| 吕梁市| 合山市| 托克托县| 伊金霍洛旗| 诸暨市| 皮山县| 怀宁县| 开封市| 汉川市| 四会市| 三门县| 朔州市| 杭锦旗| 安庆市| 永胜县| 黑水县| 房产| 邯郸县| 西吉县| 客服| 黎城县| 通州区|