本發(fā)明涉及一種基于軟件定義的網絡分布式圖片搜索引擎框架
背景技術:
網絡爬蟲,也稱網絡蜘蛛、網絡機器人,是一個自動提取網頁的程序,它從因特網上下載網頁,是搜索引擎的重要組成部分。網絡爬蟲利用標準的HTTP協(xié)議,根據超級鏈接和Web文檔檢索的方法遍歷因特網信息空間。
目前搜索引擎只針對文本進行搜索,還不能對音樂、圖片和視頻等多媒體文件進行搜索,原因主要是多媒體數(shù)據量太大;如何索引多媒體文件;進而對處理過的多媒體文件檢索。現(xiàn)在因特網上有大量的多媒體文件,特別是社交網站和多媒體分享的興起,需要對多媒體文件進行精準檢索。
因特網上有數(shù)千種不同的數(shù)據類型,HTTP給每種要通過Web傳輸?shù)膶ο蠖即蛏狭嗣麨镸IME類型的數(shù)據格式標簽(常見圖片格式:image/jpeg,image/gif)。統(tǒng)一資源定位符(URL)是資源標識符最常見的形式。URL描述了一臺特定服務器上某資源的特定位置。元素文件(METAFILE)可提供有關頁面的元信息,如針對搜索引擎和更新頻度的描述和關鍵詞,可針對元素的關鍵詞進行索引。
UDP是OSI參考模型中一種無連接的傳輸層協(xié)議,它主要用于不要求分組順序到達的傳輸中,分組傳輸順序的檢查與排序由應用層完成,提供面向事務的簡單不可靠信息傳送服務。網絡圖片可通過UDP進行下載,因為UDP具有TCP所望塵莫及的速度優(yōu)勢。
基于關鍵幀的網絡視頻格式文件摘要提取,計算量非常大,實時要求很難實現(xiàn)。而針對網絡視頻縮略圖進行檢索,是基于現(xiàn)有技術,一種可行的路徑。
要對多媒體文件進行精準檢索,首先要提供高可用的負載均衡服務器集群,存儲標注的多媒體文件;其次要有一套分布式內存對象緩存系統(tǒng),作為代理服務器,用于在動態(tài)系統(tǒng)中減少數(shù)據庫負載,實現(xiàn)對多媒體文件的爬取索引;還可用軟件定義網絡(Software Defined Network,SDN),其核心技術OpenFlow通過將網絡設備控制面與數(shù)據面分離開來,從而實現(xiàn)了網絡流量的靈活控制;最后利用關鍵詞對圖片格式文件進行檢索,再對檢索結果進行直方圖的精準檢索。
本發(fā)明提供了一種基于軟件定義的網絡分布式圖片搜索引擎用戶界面、檢索排名、緩存爬取以及服務器集群框架,主干網絡可運行在OpenFlow上,并且通過網絡鏈接分布在全球各地的數(shù)據中心,提高廣域線路的利用率。
技術實現(xiàn)要素:
本發(fā)明的目的在于提供一種基于軟件定義的網絡分布式圖片搜索引擎框架。本發(fā)明包括以下特征:
發(fā)明技術方案
1.一種基于軟件定義的網絡分布式圖片搜索引擎框架,其具體步驟如下:
1)構建一套分布式內存對象緩存系統(tǒng),作為代理服務器,用于在動態(tài)系統(tǒng)中減少數(shù)據庫負載;
2)通過METAFILE的鏈路,實現(xiàn)對URL和直方圖的提取及索引并建立URL與直方圖映射;
3)構建高可用的負載均衡服務器集群,存儲已索引的URL和直方圖;
4)利用關鍵詞或上傳圖片格式文件含關鍵詞,對指向圖片格式文件地址的URL進行檢索;
5)對檢索結果再進行直方圖的精準檢索,通過直方圖與URL的映射,確定指向圖片格式文件地址的URL,獲得圖片格式文件。
2.基于權利要求1的框架,主干網絡可運行在OpenFlow上,并且通過網絡鏈接分布在全球各地的數(shù)據中心,提高廣域線路的利用率。
附圖說明
圖1是基于關鍵詞和直方圖的二級圖片搜索引擎框架圖;圖2是一致性散列算法的原理圖;圖3是高可用的LVS集群拓撲結構圖。
具體實施方式
這種基于軟件定義的網絡分布式圖片搜索引擎框架,包括如下步驟:
1)構建一套分布式內存對象緩存系統(tǒng),作為代理服務器見附圖2,用于在動態(tài)系統(tǒng)中減少數(shù)據庫負載;
2)通過METAFILE的鏈路,實現(xiàn)對URL和直方圖的提取及索引并建立URL與直方圖映射;
3)構建高可用的負載均衡服務器集群見附圖3,存儲已索引的URL和直方圖;
4)利用關鍵詞或上傳圖片格式文件含關鍵詞,對指向圖片格式文件地址的URL進行檢索;
5)對檢索結果再進行直方圖的精準檢索,通過直方圖與URL的映射,確定指向圖片格式文件地址的URL,獲得圖片格式文件;
6)主干網絡可運行在OpenFlow上,并且通過網絡鏈接分布在全球各地的數(shù)據中心,提高廣域線路的利用率。