本發(fā)明主要涉及網(wǎng)絡(luò)數(shù)據(jù)檢索與抓取系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)上的數(shù)據(jù)資源呈幾何數(shù)字上升,對(duì)于特定信息的目標(biāo)資源的檢索,效率越來(lái)越低,而且檢索得到的資源與目標(biāo)資源的相近度無(wú)法確定,另外不同數(shù)據(jù)平臺(tái)下的檢索結(jié)果出現(xiàn)不一致情況,檢索機(jī)制的不同造成實(shí)際結(jié)果與真實(shí)結(jié)果的差值無(wú)法縮小,進(jìn)而造成搜索引擎的效率降低,成本高,而且無(wú)法匹配實(shí)時(shí)在變動(dòng)的互聯(lián)網(wǎng)海量資源。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)上述現(xiàn)有存在的問(wèn)題和不足,本發(fā)明提供了一種網(wǎng)絡(luò)資源搜索訓(xùn)練系統(tǒng),網(wǎng)絡(luò)資源中的目標(biāo)資源檢索效率更高,且具有自我更新特征關(guān)鍵信息權(quán)重值,從而提高了搜索精準(zhǔn)度和效率。
發(fā)明內(nèi)容:為解決上述技術(shù)問(wèn)題,本發(fā)明所采用的技術(shù)手段為:一種網(wǎng)絡(luò)資源搜索訓(xùn)練系統(tǒng),包括信息采集模塊,信息內(nèi)容解析與分類(lèi)模塊,檢索抓取模塊和訓(xùn)練模塊,其中:
所述信息采集模塊,收集并提取用戶待檢索資源關(guān)鍵信息,并根據(jù)關(guān)鍵信息生成關(guān)聯(lián)信息,并將該關(guān)聯(lián)信息與用戶進(jìn)行交互并記錄修改信息,同時(shí)對(duì)關(guān)鍵信息和關(guān)聯(lián)信息進(jìn)行權(quán)重排序和確定,確定后的特定檢索信息發(fā)送至檢索抓取模塊;
所述檢索抓取模塊,從網(wǎng)絡(luò)上抓取包含關(guān)鍵信息或關(guān)聯(lián)系信息的網(wǎng)頁(yè)信息,并將數(shù)據(jù)發(fā)送至信息內(nèi)容解析模塊;
所述信息內(nèi)容解析模塊,首先對(duì)信息內(nèi)容進(jìn)行分類(lèi),然后計(jì)算抓取后的網(wǎng)頁(yè)信息中關(guān)鍵信息的相近度和出現(xiàn)頻率,并根據(jù)相近度和出現(xiàn)頻率計(jì)算各關(guān)鍵信息的在關(guān)鍵信息類(lèi)別集合中的貢獻(xiàn)比值;
所述訓(xùn)練模塊,提取信息內(nèi)容解析模塊計(jì)算的各關(guān)鍵信息的權(quán)重,并按照權(quán)重大小的順序選取部分關(guān)鍵信息作為特征關(guān)鍵信息,并對(duì)其進(jìn)行歸一化處理;繼續(xù)使用特征關(guān)鍵信息作為檢索依據(jù)進(jìn)行再次檢索得到目標(biāo)資源;
所述信息內(nèi)容解析模塊中關(guān)鍵信息的權(quán)重通過(guò)公式(1)計(jì)算得到:
w(t,i)為特征關(guān)鍵信息t在關(guān)鍵信息類(lèi)別i中的權(quán)值,tf(t,i)表示特征關(guān)鍵信息在關(guān)鍵信息類(lèi)別i中的頻次,cs為所有關(guān)鍵信息類(lèi)別集合,t為信息類(lèi)別的序號(hào),i為當(dāng)前信息類(lèi)別下的關(guān)鍵信息的序號(hào),f(i)表示特征關(guān)鍵信息t在該關(guān)鍵信息類(lèi)別i中出現(xiàn)的頻次,f(cs)表示特征關(guān)鍵信息t在所有標(biāo)記塊中出現(xiàn)的總次數(shù),n表示信息類(lèi)別的總個(gè)數(shù)。
本發(fā)明對(duì)關(guān)鍵信息進(jìn)行集合化和分類(lèi)處理,并對(duì)各關(guān)鍵信息的近似度和在各自集合下的貢獻(xiàn)比值進(jìn)行優(yōu)化模擬,得到關(guān)鍵信息的權(quán)重值從而以此為依據(jù)進(jìn)行歸一化處理進(jìn)行訓(xùn)練生成得到特征關(guān)鍵信息,并作為訓(xùn)練后的搜索依據(jù)進(jìn)行檢索得到精確度更高的目標(biāo)資源。本發(fā)明考慮了關(guān)鍵信息相近度和權(quán)重比值,經(jīng)過(guò)數(shù)學(xué)公式進(jìn)行模擬得到更精準(zhǔn)的目標(biāo)資源。
附圖說(shuō)明
圖1為本發(fā)明所述系統(tǒng)的邏輯流程圖。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明內(nèi)容作進(jìn)一步說(shuō)明。
如圖1所示,本發(fā)明的網(wǎng)絡(luò)資源搜索訓(xùn)練系統(tǒng),主要包括信息采集模塊,信息內(nèi)容解析與分類(lèi)模塊,檢索抓取模塊和訓(xùn)練模塊。對(duì)于互聯(lián)網(wǎng)上海量的數(shù)據(jù)資源內(nèi)容,本系統(tǒng)對(duì)資源內(nèi)容的類(lèi)型進(jìn)行了劃分,可以以文字、視頻、音頻、圖像、字段字符,或以內(nèi)容生成格式為依據(jù)進(jìn)行劃分。使用者在確定需要搜索的目標(biāo)關(guān)鍵信息后,本系統(tǒng)提取該關(guān)鍵信息內(nèi)容并與系統(tǒng)的資源內(nèi)容的比對(duì)形成一定規(guī)則下的關(guān)鍵信息集合,同時(shí)對(duì)相關(guān)聯(lián)的信息進(jìn)行修正并與使用者進(jìn)行交互確認(rèn),確定后的關(guān)鍵信息,由本系統(tǒng)抓取模塊在網(wǎng)絡(luò)上進(jìn)行網(wǎng)頁(yè)信息的檢索和抓取,抓取得到的數(shù)據(jù)送至信息內(nèi)容解析模塊進(jìn)行處理。
信息內(nèi)容解析模塊,首先對(duì)信息內(nèi)容進(jìn)行分類(lèi),然后計(jì)算抓取后的網(wǎng)頁(yè)信息中關(guān)鍵信息的相近度和出現(xiàn)頻率,并根據(jù)相近度和出現(xiàn)頻率計(jì)算各關(guān)鍵信息的在關(guān)鍵信息類(lèi)別集合中的貢獻(xiàn)比值;
所述訓(xùn)練模塊,提取信息內(nèi)容解析模塊計(jì)算的各關(guān)鍵信息的權(quán)重,并按照權(quán)重大小的順序選取部分關(guān)鍵信息作為特征關(guān)鍵信息,并對(duì)其進(jìn)行歸一化處理;繼續(xù)使用特征關(guān)鍵信息作為檢索依據(jù)進(jìn)行再次檢索得到目標(biāo)資源;
所述信息內(nèi)容解析模塊中關(guān)鍵信息的權(quán)重通過(guò)公式(1)計(jì)算得到:
w(t,i)為特征關(guān)鍵信息t在關(guān)鍵信息類(lèi)別i中的權(quán)值,tf(t,i)表示特征關(guān)鍵信息在關(guān)鍵信息類(lèi)別i中的頻次,cs為所有關(guān)鍵信息類(lèi)別集合,t為信息類(lèi)別的序號(hào),i為當(dāng)前信息類(lèi)別下的關(guān)鍵信息的序號(hào),f(i)表示特征關(guān)鍵信息t在該關(guān)鍵信息類(lèi)別i中出現(xiàn)的頻次,f(cs)表示特征關(guān)鍵信息t在所有標(biāo)記塊中出現(xiàn)的總次數(shù),n表示信息類(lèi)別的總個(gè)數(shù)。