專(zhuān)利名稱:融合不同模態(tài)信息實(shí)現(xiàn)媒體間交叉檢索的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及不同模態(tài)間媒體的交叉檢索,尤其涉及一種融合不同模態(tài)信息實(shí)現(xiàn)媒體間交叉檢索的方法。
背景技術(shù):
Web的發(fā)展伴隨著信息數(shù)量的急劇增長(zhǎng),面對(duì)如此巨大的數(shù)據(jù)量,檢索已經(jīng)成為人們獲取信息的重要手段,單純的文本檢索已經(jīng)不能滿足用戶日益復(fù)雜的需求,用戶希望通過(guò)檢索能獲得的不只是文本數(shù)據(jù)還包括圖像、視頻、音頻、Microsoft PowerPoint格式的幻燈片等不同模態(tài)的數(shù)據(jù)。而現(xiàn)有的多媒體對(duì)象的檢索一般通過(guò)人工標(biāo)注和底層特征的匹配來(lái)實(shí)現(xiàn),但這種方法需要大量的手工標(biāo)注,由于數(shù)據(jù)量的基數(shù)巨大并且數(shù)據(jù)一直以極高的速度增長(zhǎng),以標(biāo)注作為基礎(chǔ)的多媒體搜索只適合在有限數(shù)據(jù)量的小范圍內(nèi)使用;基于多媒體對(duì)象的底層特征的匹配檢索雖然不需要大量的人工投入,但由于底層特征和語(yǔ)義間存在著鴻溝,例如視覺(jué)上相似的圖像可能表示著完全不同的語(yǔ)義,而語(yǔ)義上相同的圖像可能看起來(lái)完全不一樣,因此融合底層特征和語(yǔ)義的檢索方法有非常重要的意義。
目前沒(méi)有辦法直接得到媒體對(duì)象的語(yǔ)義,因此只能充分利用媒體對(duì)象之間的語(yǔ)義關(guān)系來(lái)實(shí)現(xiàn)基于語(yǔ)義和特征的檢索?,F(xiàn)實(shí)中的媒體對(duì)象一般不是獨(dú)立存在的,而是以附屬于超媒體的形式存在,這里的超媒體指的是包含有多種模態(tài)的媒體對(duì)象的對(duì)象,例如網(wǎng)頁(yè)和幻燈片等。對(duì)于網(wǎng)頁(yè)中的圖像,雖然不能直接得到它的語(yǔ)義,但是一般情況下它和網(wǎng)頁(yè)中的其他媒體對(duì)象及文本之間存在著相似的或互補(bǔ)的語(yǔ)義關(guān)系。利用同個(gè)超媒體中的媒體對(duì)象之間的語(yǔ)義關(guān)系,可以跨越不同模態(tài)媒體對(duì)象底層特征上的鴻溝,從而建立基于底層特征和語(yǔ)義相關(guān)性的超媒體對(duì)象的關(guān)系網(wǎng)。建立了超媒體對(duì)象的關(guān)系網(wǎng),用戶可以通過(guò)媒體對(duì)象或超媒體來(lái)查詢想要的媒體對(duì)象和超媒體,例如可以通過(guò)提交網(wǎng)頁(yè)或圖像來(lái)檢索語(yǔ)義相似的視頻,因此實(shí)現(xiàn)媒體對(duì)象間的交叉檢索很有意義。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種融合不同模態(tài)信息實(shí)現(xiàn)媒體間交叉檢索的方法。
融合不同模態(tài)信息實(shí)現(xiàn)媒體間交叉檢索的方法包括如下步驟 1)對(duì)超媒體建立關(guān)系圖并獲得對(duì)應(yīng)的相關(guān)系數(shù)矩陣; 2)用戶提交數(shù)據(jù)庫(kù)內(nèi)或數(shù)據(jù)庫(kù)外的媒體對(duì)象或超媒體作為查詢例子標(biāo)注初始匹配度; 3)利用超媒體間的相關(guān)系數(shù)矩陣反復(fù)迭代至穩(wěn)定狀態(tài)將匹配性傳播到未標(biāo)注的超媒體,并返回匹配度大于0.6的超媒體或這些超媒體中的某種特定模態(tài)的媒體對(duì)象; 4)周期性地根據(jù)用戶的查詢例子集和正例集對(duì)超媒體對(duì)象關(guān)系圖進(jìn)行調(diào)整。
所述的對(duì)超媒體建立關(guān)系圖并獲得對(duì)應(yīng)的相關(guān)系數(shù)矩陣步驟如下 1)建立超媒體對(duì)象間的音頻距離圖A,對(duì)任意兩個(gè)超媒體對(duì)象,若兩個(gè)超媒體對(duì)象都含有音頻對(duì)象,則計(jì)算這兩個(gè)超媒體對(duì)象間的音頻距離,在這兩個(gè)超媒體對(duì)象中各取一個(gè)音頻作為音頻對(duì),計(jì)算兩個(gè)音頻的梅爾頻率倒譜系數(shù)MFCC,然后計(jì)算所有音頻對(duì)的底層特征距離,取特征距離最小的兩個(gè)音頻間的距離并做歸一化,作為這兩個(gè)超媒體對(duì)象的音頻距離,如果其中一個(gè)超媒體對(duì)象不含有音頻,則這兩個(gè)超媒體對(duì)象的音頻距離設(shè)為無(wú)窮大; 2)建立超媒體對(duì)象間的圖像距離圖I,對(duì)任意兩個(gè)超媒體對(duì)象,若兩個(gè)超媒體對(duì)象都含有圖像,則計(jì)算這兩個(gè)超媒體對(duì)象間的圖像距離,在這兩個(gè)超媒體對(duì)象中各取一個(gè)圖像作為圖像對(duì),對(duì)這兩個(gè)圖像提取顏色和紋理特征,然后計(jì)算歐氏距離,取特征距離最小的圖像對(duì)的距離做歸一化,作為這兩個(gè)超媒體對(duì)象的圖像距離,如果其中一個(gè)超媒體對(duì)象不含有圖像,則這兩個(gè)超媒體對(duì)象的圖像距離設(shè)為無(wú)窮大,對(duì)數(shù)據(jù)集內(nèi)的所有圖像提取顏色特征和紋理特征,其中顏色特征包括顏色直方圖、顏色矩和顏色聚合向量,紋理特征包括粗糙度、方向性和對(duì)比度; 3)建立超媒體對(duì)象間的文本距離圖T,對(duì)任意兩個(gè)超媒體對(duì)象,若兩個(gè)超媒體對(duì)象都含有文本,則計(jì)算這兩個(gè)超媒體對(duì)象間的文本距離,對(duì)超媒體對(duì)象內(nèi)的文本對(duì)象采用詞匯頻率/逆文檔頻率方法進(jìn)行矢量化,計(jì)算所有文本對(duì)象兩兩之間的歐式距離,并將所有的距離歸一化,取兩個(gè)超媒體對(duì)象間特征距離最小的文本特征距離作為這兩個(gè)超媒體對(duì)象的特征距離,如果其中一個(gè)超媒體對(duì)象不含有文本,則這兩個(gè)超媒體對(duì)象的文本距離設(shè)為無(wú)窮大; 4)調(diào)整超媒體對(duì)象的音頻距離圖A、圖像距離圖I和文本距離圖T,分別在這三個(gè)圖上計(jì)算任意兩點(diǎn)間的最短路徑,并用最短路徑替代原來(lái)兩點(diǎn)間的邊的權(quán)重; 5)構(gòu)造超媒體對(duì)象距離圖,統(tǒng)計(jì)用音頻、圖像和文本單獨(dú)查詢的查準(zhǔn)率分別記為Pa、Pi和Pt,超媒體對(duì)象距離圖中每個(gè)頂點(diǎn)代表一個(gè)超媒體對(duì)象,邊代表兩個(gè)超媒體對(duì)象間的距離,令歸一系數(shù)γ=1/(Pa+Pi+Pt),超媒體對(duì)象距離圖第i個(gè)和第j個(gè)點(diǎn)距離公式是γ×(Aij×Pa+Iij×Pi+Tij×Pt); 6)令數(shù)據(jù)集中有n個(gè)超媒體對(duì)象,建立矩陣Cn×n以表示任意兩個(gè)超媒體對(duì)象間的語(yǔ)義關(guān)系。Cij表示矩陣C中第i行第j列的元素,如果i和j值相等,令Cij值為零,否則Cij值為exp(-HMGij2/2σ2),其中HMGij表示媒體對(duì)象距離圖中連接序號(hào)分別為i和j的媒體對(duì)象的邊權(quán)重,σ是可調(diào)節(jié)的參數(shù)。
所述的用戶提交數(shù)據(jù)庫(kù)內(nèi)或數(shù)據(jù)庫(kù)外的媒體對(duì)象或超媒體作為查詢例子標(biāo)注初始匹配度的步驟如下 1)如果用戶提交的是數(shù)據(jù)庫(kù)內(nèi)的媒體對(duì)象或超媒體,在數(shù)據(jù)庫(kù)中找到該對(duì)象并將該對(duì)象和查詢輸入的匹配度標(biāo)注成1; 2)如果用戶提交的是數(shù)據(jù)庫(kù)外的媒體對(duì)象或超媒體,計(jì)算數(shù)據(jù)庫(kù)中所有媒體對(duì)象和查詢例子中包含的媒體對(duì)象的底層特征距離,根據(jù)底層特征距離,找到數(shù)據(jù)庫(kù)內(nèi)和查詢例子最接近的k個(gè)媒體對(duì)象,將這些媒體對(duì)象所隸屬的超媒體相對(duì)于查詢例子的匹配度都標(biāo)識(shí)成1。
所述的利用超媒體間的相關(guān)系數(shù)矩陣反復(fù)迭代至穩(wěn)定狀態(tài)將匹配性傳播到未標(biāo)注的超媒體步驟如下根據(jù)已標(biāo)注矩陣Yn×1=[y1,y2...yn]T其中yi對(duì)應(yīng)的第i個(gè)超媒體對(duì)象和查詢例子的匹配度,利用公式Y(jié)*=(1-α)(I-αC)-1Y(0)求出所有媒體對(duì)象在迭代穩(wěn)定后與輸入例子的匹配度,并返回匹配度大于0.6的超媒體對(duì)象或其包含的媒體對(duì)象。
本發(fā)明融合了不同模態(tài)媒體信息,利用了超媒體內(nèi)的完整的語(yǔ)義,并且根據(jù)用戶反饋動(dòng)態(tài)調(diào)整語(yǔ)義關(guān)系,因此具有更準(zhǔn)確的查準(zhǔn)率。同時(shí),本方法還公開(kāi)了一種不同模態(tài)媒體交叉檢索的方法,用戶可以提交超媒體對(duì)象、文本、音頻或圖像來(lái)檢索相同或不同模態(tài)的媒體對(duì)象和超媒體,因此更靈活,功能更強(qiáng)大。
圖1是融合不同模態(tài)信息實(shí)現(xiàn)媒體間交叉檢索的方法流程圖; 圖2是本發(fā)明的檢索結(jié)果;該圖顯示內(nèi)容是用戶通過(guò)提交一個(gè)談?wù)撠埖木W(wǎng)頁(yè)查詢圖像返回的前9個(gè)結(jié)果。
具體實(shí)施例方式 融合不同模態(tài)信息實(shí)現(xiàn)媒體間交叉檢索的方法包括如下步驟 1)對(duì)超媒體建立關(guān)系圖并獲得對(duì)應(yīng)的相關(guān)系數(shù)矩陣; 2)用戶提交數(shù)據(jù)庫(kù)內(nèi)或數(shù)據(jù)庫(kù)外的媒體對(duì)象或超媒體作為查詢例子標(biāo)注初始匹配度; 3)利用超媒體間的相關(guān)系數(shù)矩陣反復(fù)迭代至穩(wěn)定狀態(tài)將匹配性傳播到未標(biāo)注的超媒體,并返回匹配度大于0.6的超媒體或這些超媒體中的某種特定模態(tài)的媒體對(duì)象; 4)周期性地根據(jù)用戶的查詢例子集和正例集對(duì)超媒體對(duì)象關(guān)系圖進(jìn)行調(diào)整。
所述的對(duì)超媒體建立關(guān)系圖并獲得對(duì)應(yīng)的相關(guān)系數(shù)矩陣步驟如下 1)建立超媒體對(duì)象間的音頻距離圖A,對(duì)任意兩個(gè)超媒體對(duì)象,若兩個(gè)超媒體對(duì)象都含有音頻對(duì)象,則計(jì)算這兩個(gè)超媒體對(duì)象間的音頻距離,在這兩個(gè)超媒體對(duì)象中各取一個(gè)音頻作為音頻對(duì),計(jì)算兩個(gè)音頻的梅爾頻率倒譜系數(shù)MFCC,然后計(jì)算所有音頻對(duì)的底層特征距離,取特征距離最小的兩個(gè)音頻間的距離并做歸一化,作為這兩個(gè)超媒體對(duì)象的音頻距離,如果其中一個(gè)超媒體對(duì)象不含有音頻,則這兩個(gè)超媒體對(duì)象的音頻距離設(shè)為無(wú)窮大; 2)建立超媒體對(duì)象間的圖像距離圖I,對(duì)任意兩個(gè)超媒體對(duì)象,若兩個(gè)超媒體對(duì)象都含有圖像,則計(jì)算這兩個(gè)超媒體對(duì)象間的圖像距離,在這兩個(gè)超媒體對(duì)象中各取一個(gè)圖像作為圖像對(duì),對(duì)這兩個(gè)圖像提取顏色和紋理特征,然后計(jì)算歐氏距離,取特征距離最小的圖像對(duì)的距離做歸一化,作為這兩個(gè)超媒體對(duì)象的圖像距離,如果其中一個(gè)超媒體對(duì)象不含有圖像,則這兩個(gè)超媒體對(duì)象的圖像距離設(shè)為無(wú)窮大,對(duì)數(shù)據(jù)集內(nèi)的所有圖像提取顏色特征和紋理特征,其中顏色特征包括顏色直方圖、顏色矩和顏色聚合向量,紋理特征包括粗糙度、方向性和對(duì)比度; 3)建立超媒體對(duì)象間的文本距離圖T,對(duì)任意兩個(gè)超媒體對(duì)象,若兩個(gè)超媒體對(duì)象都含有文本,則計(jì)算這兩個(gè)超媒體對(duì)象間的文本距離,對(duì)超媒體對(duì)象內(nèi)的文本對(duì)象采用詞匯頻率/逆文檔頻率方法進(jìn)行矢量化,計(jì)算所有文本對(duì)象兩兩之間的歐式距離,并將所有的距離歸一化,取兩個(gè)超媒體對(duì)象間特征距離最小的文本特征距離作為這兩個(gè)超媒體對(duì)象的特征距離,如果其中一個(gè)超媒體對(duì)象不含有文本,則這兩個(gè)超媒體對(duì)象的文本距離設(shè)為無(wú)窮大; 4)調(diào)整超媒體對(duì)象的音頻距離圖A、圖像距離圖I和文本距離圖T,分別在這三個(gè)圖上計(jì)算任意兩點(diǎn)間的最短路徑,并用最短路徑替代原來(lái)兩點(diǎn)間的邊的權(quán)重; 5)構(gòu)造超媒體對(duì)象距離圖,統(tǒng)計(jì)用音頻、圖像和文本單獨(dú)查詢的查準(zhǔn)率分別記為Pa、Pi和Pt,超媒體對(duì)象距離圖中每個(gè)頂點(diǎn)代表一個(gè)超媒體對(duì)象,邊代表兩個(gè)超媒體對(duì)象間的距離,令歸一系數(shù)γ=1/(Pa+Pi+Pt),超媒體對(duì)象距離圖第i個(gè)和第j個(gè)點(diǎn)距離公式是γ×(Aij×Pa+Iij×Pi+Tij×Pt); 6)令數(shù)據(jù)集中有n個(gè)超媒體對(duì)象,建立矩陣Cn×n以表示任意兩個(gè)超媒體對(duì)象間的語(yǔ)義關(guān)系。Cij表示矩陣C中第i行第j列的元素,如果i和j值相等,令Cij值為零,否則Cij值為exp(-HMGij2/2σ2),其中HMGij表示媒體對(duì)象距離圖中連接序號(hào)分別為i和j的媒體對(duì)象的邊權(quán)重,σ是可調(diào)節(jié)的參數(shù)。
所述的用戶提交數(shù)據(jù)庫(kù)內(nèi)或數(shù)據(jù)庫(kù)外的媒體對(duì)象或超媒體作為查詢例子標(biāo)注初始匹配度的步驟如下 1)如果用戶提交的是數(shù)據(jù)庫(kù)內(nèi)的媒體對(duì)象或超媒體,在數(shù)據(jù)庫(kù)中找到該對(duì)象并將該對(duì)象和查詢輸入的匹配度標(biāo)注成1; 2)如果用戶提交的是數(shù)據(jù)庫(kù)外的媒體對(duì)象或超媒體,計(jì)算數(shù)據(jù)庫(kù)中所有媒體對(duì)象和查詢例子中包含的媒體對(duì)象的底層特征距離,根據(jù)底層特征距離,找到數(shù)據(jù)庫(kù)內(nèi)和查詢例子最接近的k個(gè)媒體對(duì)象,將這些媒體對(duì)象所隸屬的超媒體相對(duì)于查詢例子的匹配度都標(biāo)識(shí)成1。
所述的利用超媒體間的相關(guān)系數(shù)矩陣反復(fù)迭代至穩(wěn)定狀態(tài)將匹配性傳播到未標(biāo)注的超媒體步驟如下根據(jù)已標(biāo)注矩陣Yn×1=[y1,y2...yn]T其中yi對(duì)應(yīng)的第i個(gè)超媒體對(duì)象和查詢例子的匹配度,利用公式Y(jié)*=(1-α)(I-αC)-1Y(0)求出所有媒體對(duì)象在迭代穩(wěn)定后與輸入例子的匹配度,并返回匹配度大于0.6的超媒體對(duì)象或其包含的媒體對(duì)象。
所述的周期性地根據(jù)用戶的查詢例子集和正例集對(duì)超媒體對(duì)象距離圖HMG進(jìn)行調(diào)整的步驟如下 1)構(gòu)造圖G(0),每個(gè)頂點(diǎn)代表一個(gè)超媒體對(duì)象,任意兩個(gè)超媒體間都沒(méi)有邊; 2)每次用戶的相關(guān)反饋都用來(lái)對(duì)G圖進(jìn)行改進(jìn),例如第t輪的用戶反饋可以對(duì)G(t-1)進(jìn)行改造; 3)對(duì)G圖中各邊的權(quán)重用最短路徑算法進(jìn)行調(diào)整; 4)用G圖對(duì)超媒體對(duì)象距離圖進(jìn)行調(diào)整,使超媒體距離圖更符合用戶角度的超媒體間的關(guān)系。
本發(fā)明通過(guò)利用同模態(tài)媒體對(duì)象間的底層特征距離和同個(gè)超媒體中不同模態(tài)媒體對(duì)象的語(yǔ)義上的高度相關(guān)性,對(duì)數(shù)據(jù)集中所有超媒體對(duì)象建立距離圖和相關(guān)性矩陣,并在關(guān)系圖中根據(jù)點(diǎn)和點(diǎn)之間的權(quán)重傳遞查詢例子的匹配度,實(shí)現(xiàn)了異構(gòu)媒體間的交叉檢索和基于內(nèi)容及語(yǔ)義的超媒體檢索。
如圖1所示,融合不同模態(tài)信息實(shí)現(xiàn)媒體間交叉檢索的方法具體說(shuō)明如下 1)離線處理該模塊實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)內(nèi)的媒體對(duì)象進(jìn)行語(yǔ)義理解和建立超媒體距離圖。該模塊主要包括特征提取、超媒體單模態(tài)距離圖建立、超媒體對(duì)象距離圖建立、建立相關(guān)性矩陣四個(gè)主要算法。具體說(shuō)明如下 a媒體對(duì)象特征提取和距離計(jì)算該算法對(duì)先對(duì)異構(gòu)媒體對(duì)象采用不同方法提取底層特征,并計(jì)算相同模態(tài)媒體對(duì)象間距離。對(duì)于數(shù)據(jù)集內(nèi)所有文本對(duì)象,使用詞匯頻率/逆文檔頻率來(lái)矢量化文本,然后計(jì)算任意兩文本間的歐式距離;對(duì)于數(shù)據(jù)集中的所有音頻對(duì)象,采用梅爾頻率倒譜系數(shù)MFCC作為音頻的特征,并計(jì)算音頻間的距離;對(duì)于所有圖像對(duì)象,提取顏色特征和紋理特征,并計(jì)算圖像兩兩間的歐式距離;最后對(duì)文本、圖像和音頻的距離做歸一化。
b超媒體單模態(tài)距離圖建立該算法對(duì)音頻、圖像和文本三種模態(tài)分別建立超媒體距離圖,對(duì)于超媒體音頻距離圖,每個(gè)頂點(diǎn)代表一個(gè)超媒體對(duì)象,取兩個(gè)超媒體各自對(duì)象包含的底層特征距離最小兩個(gè)音頻間的距離作為兩點(diǎn)之間的距離,如果其中一個(gè)超媒體不包含音頻,則這兩個(gè)超媒體間的距離設(shè)為無(wú)窮大;在這個(gè)原始音頻距離圖上,計(jì)算所有兩點(diǎn)間的最短路徑,并用最短路徑代替兩點(diǎn)間的距離。超媒體圖像距離圖和超媒體文本距離圖的建立方法同音頻距離圖。
c超媒體對(duì)象距離圖建立該算法構(gòu)造超媒體對(duì)象距離圖。統(tǒng)計(jì)用音頻、圖像和文本單獨(dú)查詢的查準(zhǔn)率分別記為Pa、PI和Pt,超媒體對(duì)象距離圖中每個(gè)頂點(diǎn)代表一個(gè)超媒體對(duì)象,邊代表兩個(gè)超媒體對(duì)象間的距離,令歸一系數(shù)γ=1/(Pa+Pi+Pt),超媒體對(duì)象距離圖第i個(gè)和第j個(gè)點(diǎn)距離公式是γ×(Aij×Pa+Iij×Pi+Tij×Pt); d建立相關(guān)性矩陣令數(shù)據(jù)集中有n個(gè)超媒體對(duì)象,建立矩陣Cn×n以表示任意兩個(gè)超媒體對(duì)象間的語(yǔ)義關(guān)系。Cij表示矩陣C中第i行第j列的元素,如果i和j值相等,令Cij值為零,否則Cij值為exp(-HMGij2/2σ2),其中HMGij表示媒體對(duì)象距離圖中連接序號(hào)分別為i和j的媒體對(duì)象的邊權(quán)重,σ是可調(diào)節(jié)的參數(shù)。
2)檢索該模塊實(shí)現(xiàn)媒體對(duì)象的交叉搜索和超媒體語(yǔ)義檢索,用戶可以提交圖像、聲音、文本或超媒體作為查詢輸入來(lái)檢索與查詢輸入語(yǔ)義相關(guān)性最大的媒體對(duì)象或超媒體。具體說(shuō)明如下 a當(dāng)用戶提交的檢索例子是數(shù)據(jù)集中存在的超媒體時(shí),首先將該超媒體對(duì)象與查詢輸入的匹配度標(biāo)識(shí)成1,構(gòu)造矩陣Yn×1=[y1,y2...Yn]T其中yi對(duì)應(yīng)的第i個(gè)超媒體對(duì)象和查詢例子的匹配度,如果超媒體對(duì)象就是輸入查詢,就把yi賦值1,否則賦值0。然后利用公式Y(jié)*=(1-α)(I-αC)-1Y(0)求出所有媒體對(duì)象在迭代穩(wěn)定后與輸入例子的匹配度,并返回匹配度大于0.6的超媒體對(duì)象或其包含的媒體對(duì)象。
b當(dāng)用戶提交的檢索例子是數(shù)據(jù)集中存在的媒體對(duì)象時(shí),找到該媒體對(duì)象所隸屬的超媒體,將該超媒體對(duì)象與查詢輸入的匹配度標(biāo)識(shí)成1,其他的超媒體對(duì)象的匹配度賦0,接下來(lái)求穩(wěn)定狀態(tài)下所有超媒體對(duì)象與查詢輸入匹配度的穩(wěn)定態(tài),方法與步驟a一致。
c當(dāng)用戶提交的檢索例子是在數(shù)據(jù)集外的媒體對(duì)象時(shí),則按照預(yù)處理模塊計(jì)算媒體對(duì)象間距離的方法計(jì)算查詢例子與數(shù)據(jù)集中所有對(duì)象在底層特征上的距離,求得k個(gè)最近鄰,并把這k個(gè)媒體對(duì)象隸屬的超媒體的匹配度標(biāo)識(shí)成1來(lái)代替輸入例子查詢,接下來(lái)的方法與步驟a一致。
d當(dāng)用戶提交的檢索例子是數(shù)據(jù)集外的超媒體時(shí),首先對(duì)該超媒體中的多個(gè)媒體對(duì)象都尋找k個(gè)最近鄰,并把這些最近鄰隸屬的超媒體對(duì)應(yīng)的Y矩陣中元素的匹配度賦值成1,其他對(duì)象的值為0,接下來(lái)求穩(wěn)定狀態(tài)下所有對(duì)象與查詢例子匹配程度的穩(wěn)定狀態(tài),方法與步驟a一致。
3)根據(jù)用戶反饋的查詢例集和正例集來(lái)構(gòu)造用戶反饋圖G來(lái)表示用戶對(duì)超媒體對(duì)象間關(guān)系的視角,并周期性地使用G圖對(duì)超媒體對(duì)象距離圖進(jìn)行改進(jìn)。具體說(shuō)明如下 a構(gòu)造圖G(0),對(duì)于任意的超媒體對(duì)象i和超媒體對(duì)象j,令Gij(0)=0。
b令第t輪用戶反饋的查詢集和正例集分別為Qt和Pt,則第t輪修改后的用戶反饋圖Gij(t)=λ+log2(Gij(t-1)+2),其中對(duì)象i和對(duì)象j都屬于Qt或Pt,λ是大于等于1的可調(diào)整參數(shù)。
c根據(jù)公式2,優(yōu)化用戶反饋圖G中的邊權(quán)重,其中Gp表示在用戶反饋圖G中路徑p的權(quán)重,min表示參數(shù)中最小的值,minv表示連接兩點(diǎn)的路徑中經(jīng)過(guò)的最短邊,l表示該路徑經(jīng)過(guò)的邊數(shù)。
d根據(jù)公式3,綜合用戶反饋圖G和超媒體距離圖來(lái)調(diào)整超媒體距離圖中超媒體對(duì)象間的距離,并根據(jù)公式1重新生成超媒體對(duì)象相關(guān)性矩陣C。對(duì)任意超媒體i和超媒體j,如果i和j都屬于第r輪相關(guān)反饋的查詢集和正例集,則HMGij=ω×HMGij,其中ω是小于1的正整數(shù),HMGij表示媒體對(duì)象i和對(duì)象j間的邊權(quán)重;如果i和j都屬于第r輪相關(guān)反饋的查詢集和正例集并且在圖G中超媒體對(duì)象k和超媒體對(duì)象j之間有權(quán)重為非零的邊,則HMGij=HMGij/Gkj。
實(shí)施例 假設(shè)有1000個(gè)超媒體,由950個(gè)圖像,100個(gè)聲音片段和800段文本構(gòu)成。首先提取所有圖像的顏色特征和紋理特征,其中顏色特征包括顏色直方圖、顏色矩和顏色聚合向量,紋理特征包括粗糙度、方向性和對(duì)比度,然后計(jì)算所有圖像之間的兩兩距離;對(duì)聲音片段,提取梅爾頻率倒譜系數(shù)MFCC,計(jì)算所有聲音對(duì)象兩兩之間的距離;對(duì)文本,采用詞匯頻率/逆文檔頻率矢量化后計(jì)算文本對(duì)象兩兩之間的距離。在完成媒體對(duì)象距離計(jì)算之后,要對(duì)圖像距離,文本距離和聲音距離分別歸一化。建立超媒體對(duì)象間的音頻距離圖A、圖像距離圖I和文本距離圖T,要建立音頻距離圖A,首先對(duì)于任意超媒體對(duì)象甲和乙,首先找到分別屬于這兩個(gè)超媒體的音頻之間的所有距離,取其中最小的距離作為甲乙對(duì)象間的音頻距離,如果甲乙中有一個(gè)不包含或兩個(gè)都不包含音頻對(duì)象,則甲乙對(duì)象間的音頻距離設(shè)為無(wú)窮大。再用Dijkstra算法計(jì)算任意兩點(diǎn)間最短距離,將最短距離作為兩頂點(diǎn)之間邊的新的權(quán)重;圖像距離圖I和文本距離圖T的建立方法和音頻距離圖的建立方式一致。統(tǒng)計(jì)用音頻、圖像和文本單獨(dú)查詢的查準(zhǔn)率分別記為Pa、PI和Pt,融合音頻、圖像和文本距離圖建立超媒體距離圖,超媒體距離圖中每個(gè)頂點(diǎn)代表一個(gè)超媒體對(duì)象,邊代表兩個(gè)超媒體對(duì)象間的距離,令歸一系數(shù)γ=1/(Pa+Pi+Pt),超媒體距離圖第i個(gè)和第j個(gè)點(diǎn)距離HMGij=γ×(Aij×Pa+Iij×Pi+Tij×Pt)。在超媒體距離圖基礎(chǔ)上建立1000×1000的矩陣C以表示任意兩個(gè)超媒體對(duì)象間的語(yǔ)義關(guān)系。Cij表示矩陣C中第i行第j列的元素,如果i和j值相等,令Cij值為零,否則Cij值為exp(-HMGij2/0.5);建立1000×1的矩陣Y1000×1,Yi表示的是第i個(gè)超媒體對(duì)象和查詢的相關(guān)程度,Yi都被初始化成零。
圖2是用戶通過(guò)提交一個(gè)談?wù)撠埖木W(wǎng)頁(yè)去查詢圖像返回的前9個(gè)結(jié)果,其檢索過(guò)程如下當(dāng)用戶提交一個(gè)談?wù)撠埖木W(wǎng)頁(yè)的時(shí)候,假設(shè)網(wǎng)頁(yè)中包含一個(gè)音頻對(duì)象和一段文字,系統(tǒng)首先對(duì)這個(gè)音頻計(jì)算計(jì)算梅爾頻率倒譜系數(shù)MFCC,并找到數(shù)據(jù)集中和它最近的3個(gè)音頻,把包含這3個(gè)音頻的超媒體在矩陣Y中的元素設(shè)成1,類(lèi)似的,系統(tǒng)對(duì)輸入例子中的文本計(jì)算詞頻/逆文檔頻率,并求出在數(shù)據(jù)集中和這段文本底層特征最相近的3段文本,并把包含這3段文本的Y矩陣中的元素設(shè)成1,其余的超媒體對(duì)應(yīng)的元素都設(shè)置成0,得到初始化好的匹配矩陣Y(0),使用公式Y(jié)*=(1-0.5)(I-0.5×C)-1Y(0)算出最終的匹配程度矩陣Y*,返回Y*中匹配度大于0.6的前9個(gè)超媒體對(duì)象中包含的圖像,作為用戶檢索的結(jié)果。從圖二可以看出,查準(zhǔn)率是相當(dāng)高的,說(shuō)明這種方法有效的跨過(guò)了語(yǔ)義鴻溝,解決了不同模態(tài)媒體間的交叉檢索的問(wèn)題。
從上面的例子可以看到,與傳統(tǒng)的檢索方法不同的是,本發(fā)明充分利用了超媒體對(duì)象包含的多媒體對(duì)象間的語(yǔ)義相關(guān)性和互補(bǔ)性,而且根據(jù)統(tǒng)計(jì)結(jié)果合理分配了不同模態(tài)媒體對(duì)象對(duì)查準(zhǔn)率的影響,因此比傳統(tǒng)的檢索方法查準(zhǔn)率高;同時(shí)本發(fā)明既可以通過(guò)超媒體這種完整的融合了不同模態(tài)媒體對(duì)象的集合來(lái)檢索,也可以通過(guò)提交普通媒體對(duì)象來(lái)檢索任意模態(tài)的媒體對(duì)象,因此從功能角度來(lái)說(shuō),本發(fā)明更加靈活,功能更強(qiáng)大,更能符合用戶的需求。
權(quán)利要求
1.一種融合不同模態(tài)信息實(shí)現(xiàn)媒體間交叉檢索的方法,其特征在于包括如下步驟
1)對(duì)超媒體建立關(guān)系圖并獲得對(duì)應(yīng)的相關(guān)系數(shù)矩陣;
2)用戶提交數(shù)據(jù)庫(kù)內(nèi)或數(shù)據(jù)庫(kù)外的媒體對(duì)象或超媒體作為查詢例子標(biāo)注初始匹配度;
3)利用超媒體間的相關(guān)系數(shù)矩陣反復(fù)迭代至穩(wěn)定狀態(tài)將匹配性傳播到未標(biāo)注的超媒體,并返回匹配度大于0.6的超媒體或這些超媒體中的某種特定模態(tài)的媒體對(duì)象;
4)周期性地根據(jù)用戶的查詢例子集和正例集對(duì)超媒體對(duì)象關(guān)系圖進(jìn)行調(diào)整。
2.根據(jù)權(quán)利要求1所述的一種融合不同模態(tài)信息實(shí)現(xiàn)媒體間交叉檢索的方法,其特征在于,所述的對(duì)超媒體建立關(guān)系圖并獲得對(duì)應(yīng)的相關(guān)系數(shù)矩陣步驟如下
1)建立超媒體對(duì)象間的音頻距離圖A,對(duì)任意兩個(gè)超媒體對(duì)象,若兩個(gè)超媒體對(duì)象都含有音頻對(duì)象,則計(jì)算這兩個(gè)超媒體對(duì)象間的音頻距離,在這兩個(gè)超媒體對(duì)象中各取一個(gè)音頻作為音頻對(duì),計(jì)算兩個(gè)音頻的梅爾頻率倒譜系數(shù)MFCC,然后計(jì)算所有音頻對(duì)的底層特征距離,取特征距離最小的兩個(gè)音頻間的距離并做歸一化,作為這兩個(gè)超媒體對(duì)象的音頻距離,如果其中一個(gè)超媒體對(duì)象不含有音頻,則這兩個(gè)超媒體對(duì)象的音頻距離設(shè)為無(wú)窮大;
2)建立超媒體對(duì)象間的圖像距離圖I,對(duì)任意兩個(gè)超媒體對(duì)象,若兩個(gè)超媒體對(duì)象都含有圖像,則計(jì)算這兩個(gè)超媒體對(duì)象間的圖像距離,在這兩個(gè)超媒體對(duì)象中各取一個(gè)圖像作為圖像對(duì),對(duì)這兩個(gè)圖像提取顏色和紋理特征,然后計(jì)算歐氏距離,取特征距離最小的圖像對(duì)的距離做歸一化,作為這兩個(gè)超媒體對(duì)象的圖像距離,如果其中一個(gè)超媒體對(duì)象不含有圖像,則這兩個(gè)超媒體對(duì)象的圖像距離設(shè)為無(wú)窮大,對(duì)數(shù)據(jù)集內(nèi)的所有圖像提取顏色特征和紋理特征,其中顏色特征包括顏色直方圖、顏色矩和顏色聚合向量,紋理特征包括粗糙度、方向性和對(duì)比度;
3)建立超媒體對(duì)象間的文本距離圖T,對(duì)任意兩個(gè)超媒體對(duì)象,若兩個(gè)超媒體對(duì)象都含有文本,則計(jì)算這兩個(gè)超媒體對(duì)象間的文本距離,對(duì)超媒體對(duì)象內(nèi)的文本對(duì)象采用詞匯頻率/逆文檔頻率方法進(jìn)行矢量化,計(jì)算所有文本對(duì)象兩兩之間的歐式距離,并將所有的距離歸一化,取兩個(gè)超媒體對(duì)象間特征距離最小的文本特征距離作為這兩個(gè)超媒體對(duì)象的特征距離,如果其中一個(gè)超媒體對(duì)象不含有文本,則這兩個(gè)超媒體對(duì)象的文本距離設(shè)為無(wú)窮大;
4)調(diào)整超媒體對(duì)象的音頻距離圖A、圖像距離圖I和文本距離圖T,分別在這三個(gè)圖上計(jì)算任意兩點(diǎn)間的最短路徑,并用最短路徑替代原來(lái)兩點(diǎn)間的邊的權(quán)重;
5)構(gòu)造超媒體對(duì)象距離圖,統(tǒng)計(jì)用音頻、圖像和文本單獨(dú)查詢的查準(zhǔn)率分別記為Pa、Pi和Pt,超媒體對(duì)象距離圖中每個(gè)頂點(diǎn)代表一個(gè)超媒體對(duì)象,邊代表兩個(gè)超媒體對(duì)象間的距離,令歸一系數(shù)γ=1/(pa+pi+pt),超媒體對(duì)象距離圖第i個(gè)和第j個(gè)點(diǎn)距離公式是γ×(Aij×Pa+Iij×Pi+Tij×Pt);
6)令數(shù)據(jù)集中有n個(gè)超媒體對(duì)象,建立矩陣Cn×n以表示任意兩個(gè)超媒體對(duì)象間的語(yǔ)義關(guān)系。Cij表示矩陣C中第i行第j列的元素,如果i和j值相等,令Cij值為零,否則Cij值為exp(-HMGij2/2σ2),其中HMGij表示媒體對(duì)象距離圖中連接序號(hào)分別為i和j的媒體對(duì)象的邊權(quán)重,σ是可調(diào)節(jié)的參數(shù)。
3.根據(jù)權(quán)利要求1所述的一種融合不同模態(tài)信息實(shí)現(xiàn)媒體間交叉檢索的方法,其特征在于,所述的用戶提交數(shù)據(jù)庫(kù)內(nèi)或數(shù)據(jù)庫(kù)外的媒體對(duì)象或超媒體作為查詢例子標(biāo)注初始匹配度的步驟如下
1)如果用戶提交的是數(shù)據(jù)庫(kù)內(nèi)的媒體對(duì)象或超媒體,在數(shù)據(jù)庫(kù)中找到該對(duì)象并將該對(duì)象和查詢輸入的匹配度標(biāo)注成1;
2)如果用戶提交的是數(shù)據(jù)庫(kù)外的媒體對(duì)象或超媒體,計(jì)算數(shù)據(jù)庫(kù)中所有媒體對(duì)象和查詢例子中包含的媒體對(duì)象的底層特征距離,根據(jù)底層特征距離,找到數(shù)據(jù)庫(kù)內(nèi)和查詢例子最接近的k個(gè)媒體對(duì)象,將這些媒體對(duì)象所隸屬的超媒體相對(duì)于查詢例子的匹配度都標(biāo)識(shí)成1。
4.根據(jù)權(quán)利要求1所述的一種融合不同模態(tài)信息實(shí)現(xiàn)媒體間交叉檢索的方法,其特征在于,所述的利用超媒體間的相關(guān)系數(shù)矩陣反復(fù)迭代至穩(wěn)定狀態(tài)將匹配性傳播到未標(biāo)注的超媒體步驟如下根據(jù)已標(biāo)注矩陣Yn×1=[y1,y2…yn]T其中yi對(duì)應(yīng)的第i個(gè)超媒體對(duì)象和查詢例子的匹配度,利用公式Y(jié)*=(1-α)(I-αC)-1Y(0)求出所有媒體對(duì)象在迭代穩(wěn)定后與輸入例子的匹配度,并返回匹配度大于0.6超媒體對(duì)象或其包含的媒體對(duì)象。
全文摘要
本發(fā)明公開(kāi)了一種融合不同模態(tài)信息實(shí)現(xiàn)媒體間交叉檢索的方法。包括如下步驟1)對(duì)超媒體建立關(guān)系圖并獲得對(duì)應(yīng)的相關(guān)系數(shù)矩陣;2)用戶提交數(shù)據(jù)庫(kù)內(nèi)或數(shù)據(jù)庫(kù)外的媒體對(duì)象或超媒體作為查詢例子標(biāo)注初始匹配度;3)利用超媒體間的相關(guān)系數(shù)矩陣反復(fù)迭代至穩(wěn)定狀態(tài)將匹配性傳播到未標(biāo)注的超媒體,并返回與查詢例子匹配度大于0.6的超媒體或這些超媒體中的某種特定模態(tài)的媒體對(duì)象;4)周期性地根據(jù)用戶的查詢例子集和正例集對(duì)超媒體對(duì)象關(guān)系圖進(jìn)行調(diào)整。本發(fā)明融合各種媒體對(duì)象的底層特征,并通過(guò)媒體對(duì)象間親緣關(guān)系來(lái)傳播語(yǔ)義,所以檢索效果更好,由于檢索例子和返回結(jié)果的模態(tài)可以不同并且利用了語(yǔ)義傳播,因此檢索更準(zhǔn)確,適用更廣泛。
文檔編號(hào)G06F17/30GK101303694SQ20081006144
公開(kāi)日2008年11月12日 申請(qǐng)日期2008年4月30日 優(yōu)先權(quán)日2008年4月30日
發(fā)明者飛 吳, 莊越挺, 王文華, 易 楊 申請(qǐng)人:浙江大學(xué)