一種基于特征分析的數(shù)據(jù)索引方法
【專利摘要】本發(fā)明公開了一種基于特征分析的數(shù)據(jù)索引方法,通過對用戶數(shù)據(jù)信息進行判斷,確定其所感興趣的數(shù)據(jù)特征;然后統(tǒng)計各個數(shù)據(jù)特征的訪問概率和訪問間隔時間;依據(jù)概率高優(yōu)先和間隔時間短優(yōu)先的策略,建立特征索引表;進行基于特征索引表的綜合檢索,返回結(jié)果。從而針對用戶的個性需求,通過日常不斷分析用戶的行為和記錄,得出其所感興趣的數(shù)據(jù)特征,建立有效的特征索引表,提高數(shù)據(jù)搜索的針對性和有效性,顯著提高特征數(shù)據(jù)的查詢效率。
【專利說明】一種基于特征分析的數(shù)據(jù)索引方法【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種數(shù)據(jù)索引的方法,具體的涉及基于特征分析的數(shù)據(jù)索引方法,屬于計算機技術(shù)應(yīng)用領(lǐng)域。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)規(guī)模的不斷增大,網(wǎng)上信息量也急劇膨脹,信息的檢索也從最初的圖書館和科技信息機構(gòu),擴大到其他各行領(lǐng)域,并與各種管理信息系統(tǒng)結(jié)合在一起。
[0003]目前比較常用的兩種方式是“推”技術(shù)(Push Technology)和“拉”技術(shù)(PullTechnology),前者主要采用類似郵件的方式將相關(guān)信息數(shù)據(jù)顯式傳遞給使用者,后者一般通過檢索工具(如全文檢索、知識地圖、決策樹等)查找知識庫來獲取所要的數(shù)據(jù)。
[0004]但上述的兩種方式,在海量的數(shù)據(jù)面前,都暴露出諸多問題。一是檢索效率不高,每次查詢都要多次訪問數(shù)據(jù)庫或是其他外存,當瞬間請求量超額時,響應(yīng)速度降低,容易造成系統(tǒng)不穩(wěn)定;二是檢索準確度不高,每次的檢索詞信息量有限,因此在計算詞與文檔相關(guān)性的時候,往往不夠準確。
【發(fā)明內(nèi)容】
[0005]發(fā)明目的:本發(fā)明的目的在于針對上述現(xiàn)有技術(shù)中存在的問題和不足提供一種基于特征分析的數(shù)據(jù)索引方法,以提高檢索效率和準確度。
[0006]技術(shù)方案:一種基于特征分析的數(shù)據(jù)索引方法,包括如下步驟:
(1)對用戶數(shù)據(jù)信息進行判斷,確定其所感興趣的數(shù)據(jù)特征;
(2)統(tǒng)計步驟(1)中各特征的訪問概率`和訪問間隔時間;
(3)根據(jù)概率高優(yōu)先和間隔時間短優(yōu)先的策略,建立特征索引表;
(4)進行基于特征索引表的綜合檢索,返回結(jié)果。
[0007]用戶的數(shù)據(jù)特征包括專業(yè)技術(shù)類別、應(yīng)用領(lǐng)域、使用地域、解決問題、基礎(chǔ)知識原理、關(guān)鍵字、關(guān)聯(lián)項目、關(guān)聯(lián)客戶等。
[0008]對用戶特征數(shù)據(jù)的統(tǒng)計,采取90天重新統(tǒng)計一次的定期統(tǒng)計方式,確保有效性和穩(wěn)定性。
[0009]特征索引表隨著統(tǒng)計數(shù)據(jù)定期更新,避免數(shù)據(jù)脫離實際需求,同時也不會過于頻繁變化而造成不穩(wěn)定性。
[0010]有益效果:本發(fā)明提供的基于特征分析的數(shù)據(jù)索引方法,針對用戶的個性需求,通過日常不斷分析用戶的行為和記錄,得出其所感興趣的數(shù)據(jù)特征,從而建立有效的特征索引表,提高數(shù)據(jù)搜索的針對性和有效性,顯著提高特征數(shù)據(jù)的查詢效率。
【專利附圖】
【附圖說明】
[0011]圖1為本發(fā)明實施例的工作流程圖。【具體實施方式】
[0012]下面結(jié)合附圖和具體實施例,進一步闡明本發(fā)明,應(yīng)理解這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價形式的修改均落于本申請所附權(quán)利要求所限定的范圍。
[0013]如圖1所示,一種基于特征分析的數(shù)據(jù)索引方法,包括如下步驟:
(1)對用戶數(shù)據(jù)信息進行判斷,確定其所感興趣的數(shù)據(jù)特征;
(2)統(tǒng)計步驟(I)中各特征的訪問概率和訪問間隔時間;
(3)根據(jù)概率高優(yōu)先和間隔時間短優(yōu)先的策略,建立特征索引表;
(4)進行基于特征索引表的綜合檢索,返回結(jié)果。
[0014]用戶的數(shù)據(jù)特征包括專業(yè)技術(shù)類別、應(yīng)用領(lǐng)域、使用地域、解決問題、基礎(chǔ)知識原理、關(guān)鍵字、關(guān)聯(lián)項目、關(guān)聯(lián)客戶等。
[0015]對用戶特征數(shù)據(jù)的統(tǒng)計,采取90天重新統(tǒng)計一次的定期統(tǒng)計方式,確保有效性和穩(wěn)定性。
[0016]特征索引表隨著統(tǒng)計數(shù)據(jù)定期更新,避免數(shù)據(jù)脫離實際需求,同時也不會過于頻繁變化而造成不穩(wěn)定性。
【權(quán)利要求】
1.一種基于特征分析的數(shù)據(jù)索引方法,其特征在于,包括如下步驟: (1)對用戶數(shù)據(jù)信息進行判斷,確定其所感興趣的數(shù)據(jù)特征; (2)統(tǒng)計步驟(I)中各特征的訪問概率和訪問間隔時間; (3)根據(jù)概率高優(yōu)先和間隔時間短優(yōu)先的策略,建立特征索引表; (4)進行基于特征索引表的綜合檢索,返回結(jié)果。
2.如權(quán)利要求1所述的基于特征分析的數(shù)據(jù)索引方法,其特征在于:步驟(I)中所述的數(shù)據(jù)特征包括專業(yè)技術(shù)類別、應(yīng)用領(lǐng)域、使用地域、解決問題、基礎(chǔ)知識原理、關(guān)鍵字、關(guān)聯(lián)項目、關(guān)聯(lián)客戶等。
3.如權(quán)利要求1所述的基于特征分析的數(shù)據(jù)索引方法,其特征在于:步驟(2)所述的統(tǒng)計,采取90天重新統(tǒng)計一次的定期統(tǒng)計方式。
4.如權(quán)利要求1所述的基于特征分析的數(shù)據(jù)索引方法,其特征在于:步驟(3)中所述的特征索引表隨著步驟(2)中的統(tǒng)計數(shù)據(jù)定期更新。
【文檔編號】G06F17/30GK103778152SQ201210408561
【公開日】2014年5月7日 申請日期:2012年10月24日 優(yōu)先權(quán)日:2012年10月24日
【發(fā)明者】姚進德, 艾順剛, 張思謙 申請人:鎮(zhèn)江睿泰信息科技有限公司