基于文本圖片特征交互擴(kuò)充的文本圖解方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)媒體技術(shù)領(lǐng)域,特別涉及一種基于文本圖片特征交互擴(kuò)充的文 本圖解方法及系統(tǒng)。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)與網(wǎng)絡(luò)多媒體技術(shù)的飛速發(fā)展,人們對(duì)于文本圖解的需求越來(lái)越高。 在社交網(wǎng)絡(luò)中,用戶習(xí)慣于用圖片來(lái)匹配文字,更好的表達(dá)自己。但是,互聯(lián)網(wǎng)中的圖片數(shù) 據(jù)庫(kù)十分龐大,手動(dòng)檢索與文本相匹配的圖片需要很長(zhǎng)的時(shí)間。因此,自動(dòng)化的文本圖解系 統(tǒng)對(duì)于用戶是非常重要的。
[0003] 相關(guān)技術(shù)中,現(xiàn)有的文本圖解系統(tǒng)是通過計(jì)算待圖解文本與圖片數(shù)據(jù)庫(kù)中數(shù)據(jù)的 相似度,以將相似度最高的特定數(shù)量圖片作為圖解推送給用戶。其中,計(jì)算相似度的方法主 要有一下三種:一種是直接根據(jù)待圖解文本與圖片標(biāo)簽之間出現(xiàn)的共同詞語(yǔ)來(lái)進(jìn)行相似搜 索;第二種是先提取待圖解文本中的關(guān)鍵詞語(yǔ),然后再將關(guān)鍵詞語(yǔ)與圖片標(biāo)簽詞語(yǔ)進(jìn)行相 似搜索;第三種是將圖片數(shù)據(jù)庫(kù)中每一條數(shù)據(jù)的圖像特征詞袋模型與圖片標(biāo)簽詞袋模型進(jìn) 行拼接,然后計(jì)算待圖解文本的主題分布與圖片數(shù)據(jù)庫(kù)中數(shù)據(jù)的主題分布的相似性。
[0004] 然而,相關(guān)技術(shù)中存在以下缺點(diǎn):
[0005] -、根據(jù)詞的共現(xiàn)關(guān)系計(jì)算相似度的方法最早是在圖片搜索引擎上使用的,通過 tf-idf等度量方式直接計(jì)算出圖片的關(guān)鍵詞與待圖解文本的相似性。這種方法雖然簡(jiǎn)單直 接,易于實(shí)現(xiàn),并且在關(guān)鍵詞較完整時(shí)有比較好的效果,但是直接應(yīng)用文本特征進(jìn)行相似度 度量,沒有對(duì)文本的關(guān)鍵信息進(jìn)行提取,沒有對(duì)文本的語(yǔ)義進(jìn)行分析,使得冗余文本特征帶 來(lái)的噪聲較大,并且沒有考慮圖片的內(nèi)容特征,導(dǎo)致實(shí)際效果在很大程度上依賴于圖片標(biāo) 簽的質(zhì)量。
[0006] 二、根據(jù)文本中的關(guān)鍵詞語(yǔ)尋找相似圖片進(jìn)行文本圖解的方法在Barnard與 Joshi等人的文本圖解系統(tǒng)中均得到了應(yīng)用。該方法的具體步驟如下:(1)提取待圖解文 本中的描述性詞語(yǔ),即關(guān)鍵詞。(2)計(jì)算提取出的關(guān)鍵詞和每個(gè)圖片的標(biāo)簽詞語(yǔ)的相似度。 (3)依據(jù)該相似度對(duì)備選圖片排序,選擇相似度最高的圖片作為文本的圖解。這種方法通過 關(guān)鍵詞的尋找去除了文本中的部分噪聲,但是該方法沒有考慮圖片的內(nèi)容特征,因此在很 大程度上依賴于圖片標(biāo)簽的質(zhì)量。另外,直接度量?jī)蓚€(gè)詞語(yǔ)的相似度而不考慮詞語(yǔ)所處的 語(yǔ)境也會(huì)對(duì)度量的結(jié)果造成巨大的偏差。
[0007] 三、利用圖片特征與圖片標(biāo)簽信息進(jìn)行拼接的方法,首先將圖片特征與文本特征 拼接到同一特征空間下,然后利用主題挖掘計(jì)算主題分布,并利用主題的概率分布來(lái)表示 每一條數(shù)據(jù),最后依據(jù)待圖解文本特征向量與圖片數(shù)據(jù)庫(kù)中每個(gè)數(shù)據(jù)的主題分布的相似性 排序,選出匹配的圖片。利用主題挖掘的方式可以更好地挖掘詞與詞在深層語(yǔ)義空間中的 關(guān)系,利用圖像特征也可以更好地考慮圖片內(nèi)容之間的相似度,但是沒有解決由于圖片標(biāo) 簽的稀疏性和詞語(yǔ)脫離語(yǔ)境可能造成的語(yǔ)義挖掘不準(zhǔn)確的問題。此外,直接將文本特征與 圖片特征拼接到同一特征空間下也忽視了圖片與文本特征不同的概率分布特點(diǎn)。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明旨在至少在一定程度上解決上述相關(guān)技術(shù)中的技術(shù)問題之一。
[0009] 為此,本發(fā)明的一個(gè)目的在于提出一種基于文本圖片特征交互擴(kuò)充的文本圖解方 法,該方法可以提高相似度計(jì)算的準(zhǔn)確性,并且簡(jiǎn)單便捷。
[0010] 本發(fā)明的另一個(gè)目的在于提出一種基于文本圖片特征交互擴(kuò)充的文本圖解系統(tǒng)。
[0011] 為達(dá)到上述目的,本發(fā)明一方面實(shí)施例提出了一種基于文本圖片特征交互擴(kuò)充的 文本圖解方法,包括以下步驟:S1,采集圖片數(shù)據(jù)庫(kù)數(shù)據(jù)集與外部文本數(shù)據(jù)集;S2,對(duì)所述 外部文本數(shù)據(jù)集進(jìn)行文本預(yù)處理,并且對(duì)所述圖片數(shù)據(jù)庫(kù)數(shù)據(jù)集進(jìn)行圖片特征提取和關(guān)鍵 詞預(yù)處理;S3,在預(yù)處理之后的外部文本數(shù)據(jù)集與圖片數(shù)據(jù)庫(kù)數(shù)據(jù)集上進(jìn)行主題挖掘,以獲 取外部文本數(shù)據(jù)集的主題分布和圖片數(shù)據(jù)庫(kù)數(shù)據(jù)集的主題分布;S4,根據(jù)所述外部文本數(shù) 據(jù)集的主題分布對(duì)所述圖片數(shù)據(jù)庫(kù)數(shù)據(jù)集進(jìn)行文本特征擴(kuò)充,并且根據(jù)所述圖片數(shù)據(jù)庫(kù)數(shù) 據(jù)集的主題分布對(duì)所述外部文本數(shù)據(jù)集進(jìn)行圖像特征擴(kuò)充;S5,迭代所述步驟S3與所述 步驟S4,直至收斂,并保存擴(kuò)充后的圖片數(shù)據(jù)庫(kù)中每條數(shù)據(jù)的主題分布;S6,輸入待圖解文 本;S7,根據(jù)所述每條數(shù)據(jù)的主題分布對(duì)所述待圖解文本進(jìn)行主題推斷,以得到主題分布概 率;以及S8,根據(jù)所述主題分布概率獲取所述待圖解文本與圖片標(biāo)簽的相似度,以輸出結(jié) 果。
[0012] 根據(jù)本發(fā)明實(shí)施例提出的基于文本圖片特征交互擴(kuò)充的文本圖解方法,通過對(duì)原 有數(shù)據(jù)進(jìn)行擴(kuò)充,豐富了原有數(shù)據(jù)的表示,很好地解決了因?yàn)殛P(guān)鍵詞稀疏造成的相似度量 不準(zhǔn)確問題,同時(shí)以文本特征與圖像特征的對(duì)應(yīng)關(guān)系為基礎(chǔ),分別利用文本和圖片,針對(duì)文 本與圖片的不同特征屬性特點(diǎn)進(jìn)行擴(kuò)充,將兩類數(shù)據(jù)分開處理,充分考慮到二者獨(dú)有的分 布,避免了因?yàn)閿?shù)據(jù)屬性不同造成相互影響的問題,從而提高相似度計(jì)算的準(zhǔn)確性,提高推 送圖片的準(zhǔn)確率,簡(jiǎn)單便捷,提高用戶的使用體驗(yàn)。
[0013] 另外,根據(jù)本發(fā)明上述實(shí)施例的基于文本圖片特征交互擴(kuò)充的文本圖解方法還可 以具有如下附加的技術(shù)特征:
[0014] 進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,對(duì)所述外部文本數(shù)據(jù)集進(jìn)行文本預(yù)處理, 進(jìn)一步包括:去除所述外部文本數(shù)據(jù)集中的長(zhǎng)文本的停用詞;根據(jù)PSA(PorterStemming Algorithm,波特詞干算法)算法對(duì)所述外部文本數(shù)據(jù)集中的詞語(yǔ)和關(guān)鍵詞進(jìn)行去詞根處 理,以獲取每個(gè)文本對(duì)應(yīng)的詞袋模型。
[0015] 進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,對(duì)所述圖片數(shù)據(jù)庫(kù)數(shù)據(jù)集進(jìn)行圖片特征提 取和關(guān)鍵詞預(yù)處理,進(jìn)一步包括:根據(jù)SIFT(Scale-invariantfeaturetransform,尺度不 變特征變換)算法提取所述圖片數(shù)據(jù)庫(kù)數(shù)據(jù)集中每張圖片的圖片特征;根據(jù)所述每張圖片 的圖片特征檢測(cè)所述每張圖片的描述子,并進(jìn)行聚類以得到多個(gè)聚類中心;以及根據(jù)所述 多個(gè)聚類中心得到所述每張圖片的詞袋模型。
[0016] 進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)LDA(LatentDirichletAllocation, 文檔主題生成模型)算法在所述預(yù)處理之后的外部文本數(shù)據(jù)集與圖片數(shù)據(jù)庫(kù)數(shù)據(jù)集上進(jìn) 行主題挖掘。
[0017] 進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,根據(jù)以下公式計(jì)算相似度,所述公式為:
[0018]
[0019] 其中,i表示第i個(gè)待圖解文本,j表示圖片數(shù)據(jù)庫(kù)中第j張圖片,0u為第i個(gè)待 圖解文本對(duì)應(yīng)的主題分布概率,0:/為第j張圖片對(duì)應(yīng)的主題分布概率。
[0020] 本發(fā)明另一方面實(shí)施例提出了一種基于文本圖片特征交互擴(kuò)充的文本圖解系統(tǒng), 包括:采集模塊,用于采集圖片數(shù)據(jù)庫(kù)數(shù)據(jù)集與外部文本數(shù)據(jù)集;預(yù)處理模塊,用于對(duì)所述 外部文本數(shù)據(jù)集進(jìn)行文本預(yù)處理,并且對(duì)所述圖片數(shù)據(jù)庫(kù)數(shù)據(jù)集進(jìn)行圖片特征提取和關(guān)鍵 詞預(yù)處理;處理模塊,用于在預(yù)處理之后的外部文本數(shù)據(jù)集與圖片數(shù)據(jù)庫(kù)數(shù)據(jù)集上進(jìn)行主 題挖掘,以獲取外部文本數(shù)據(jù)集的主題分布和圖片數(shù)據(jù)庫(kù)數(shù)據(jù)集的主題分布;擴(kuò)充模塊,用 于根據(jù)所述外部文本數(shù)據(jù)集的主題分布對(duì)所述圖片數(shù)據(jù)庫(kù)數(shù)據(jù)集進(jìn)行文本特征擴(kuò)充,并且 根據(jù)所述圖片數(shù)據(jù)庫(kù)數(shù)據(jù)集的主題分布對(duì)所述外部文本數(shù)據(jù)集進(jìn)行圖像特征擴(kuò)充;迭代模 塊,用于迭代所述處理模塊與所述擴(kuò)充模塊所做的操作,直至收斂,并保存擴(kuò)充后的圖片數(shù) 據(jù)庫(kù)中每條數(shù)據(jù)的主題分布;輸入模塊,用于輸入待圖解文本;獲取模塊,用于根據(jù)所述每 條數(shù)據(jù)的主題分布對(duì)所述待圖解文本進(jìn)行主題推斷,以得到主題分布概率;以及輸出模塊, 用于根據(jù)所述主題分布概率獲取所述待圖解文本與圖片標(biāo)簽的相似度,以輸出結(jié)果。
[0021] 根據(jù)本發(fā)明實(shí)施例提出的基于文本圖片特征交互擴(kuò)充的文本圖解系統(tǒng),通過對(duì)原 有數(shù)據(jù)進(jìn)行擴(kuò)充,豐富了原有數(shù)據(jù)的表示,很好地解決了因?yàn)殛P(guān)鍵詞稀疏造成的相似度量 不準(zhǔn)確問題,同時(shí)以文本特征與圖像特征的對(duì)應(yīng)關(guān)系為基礎(chǔ),分別利用文本和圖片,針對(duì)文 本與圖片的不同特征屬性特點(diǎn)進(jìn)行擴(kuò)充,將兩類數(shù)據(jù)分開處理,充分考慮到二者獨(dú)有的分 布,避免了因?yàn)閿?shù)據(jù)屬性不同造成相互影響的問題,從而提高相似度計(jì)算的準(zhǔn)確性,提高推 送圖片的準(zhǔn)確率,簡(jiǎn)單便捷,提高用戶的使用體驗(yàn)。
[0022] 另外,根據(jù)本發(fā)明上述實(shí)施例的基于文本圖片特征交互擴(kuò)充的文本圖解系統(tǒng)還可 以具有如下附加的技術(shù)特征:
[0023] 進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,所述預(yù)處理模塊進(jìn)一步用于:去除所述外部 文本數(shù)據(jù)集中的長(zhǎng)文本的停用詞;根據(jù)PSA算法對(duì)所述外部文本數(shù)據(jù)集中的詞語(yǔ)和關(guān)鍵詞 進(jìn)行去詞根處理,以獲取每個(gè)文本對(duì)應(yīng)的詞袋模型。
[