一種基于用戶興趣的服務(wù)資源檢索方法
【專(zhuān)利摘要】一種基于用戶興趣的服務(wù)資源檢索方法,具體步驟為:獲取用戶的興趣信息并生成用戶興趣剖像、用二元組興趣向量表征用戶興趣剖像、計(jì)算相關(guān)文檔的興趣相關(guān)因子、提取用戶檢索請(qǐng)求中的提問(wèn)向量、分析提問(wèn)向量和文檔向量之間的相似度、計(jì)算文檔與提問(wèn)向量的興趣相似度、根據(jù)興趣相似度的大小對(duì)相關(guān)文檔進(jìn)行排序。本發(fā)明在對(duì)服務(wù)資源進(jìn)行檢索時(shí),通過(guò)對(duì)用戶興趣的提取并分析,使得檢索更加符合用戶的實(shí)際需要,實(shí)現(xiàn)了基于用戶興趣的個(gè)性化服務(wù)資源檢索,明顯改善了檢索效果,降低了對(duì)海量的網(wǎng)絡(luò)服務(wù)資源檢索的時(shí)間,效率有明顯的提高。
【專(zhuān)利說(shuō)明】—種基于用戶興趣的服務(wù)資源檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及到互聯(lián)網(wǎng)服務(wù)資源的提供領(lǐng)域,具體的說(shuō)是一種基于用戶興趣的服務(wù)資源檢索方法。
【背景技術(shù)】
[0002]服務(wù)資源分類(lèi)是指對(duì)網(wǎng)絡(luò)中各種已存在的服務(wù)和資源按照其各自的屬性和特點(diǎn)進(jìn)行分析,并劃分使其歸屬于特定的類(lèi)別。隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展以及計(jì)算機(jī)技術(shù)的不斷普及,促使人們對(duì)網(wǎng)絡(luò)服務(wù)資源的依賴(lài)愈加強(qiáng)烈,而服務(wù)資源的分類(lèi)是一個(gè)復(fù)雜的加工處理過(guò)程,其涉及到服務(wù)資源的預(yù)處理、特征向量集合的提取和分類(lèi)等技術(shù)環(huán)節(jié),服務(wù)資源分類(lèi)則可理解為采用一定的方法與模式,按照一定的規(guī)則將網(wǎng)絡(luò)上的各種資源進(jìn)行全面的分析、優(yōu)選、加工、排列組合、整理、分類(lèi)等加工處理,使其形成一個(gè)有序的、便于用戶高效獲取并利用的服務(wù)資源體的系統(tǒng)過(guò)程。服務(wù)資源的分類(lèi)使得繁雜零散的資源集合形成了有序化的結(jié)構(gòu),使之轉(zhuǎn)化為一個(gè)有意義的整體,便于服務(wù)資源能依據(jù)某一特定形式的規(guī)則進(jìn)行更高層次的存取和利用。目前網(wǎng)絡(luò)上的服務(wù)和資源十分豐富,如何將海量的服務(wù)資源準(zhǔn)確的分類(lèi),這已成為資源分類(lèi)技術(shù)要處理的一個(gè)關(guān)鍵問(wèn)題。
[0003]當(dāng)前服務(wù)資源分類(lèi)方法基本是用戶依據(jù)一定規(guī)則自行手動(dòng)進(jìn)行人工分類(lèi)。在資源量過(guò)大的時(shí)候,使用這種方法必定將消耗大量人力,并且效率相當(dāng)?shù)拖?。?dāng)用戶定義新類(lèi)別時(shí),又要對(duì)原先未定義種類(lèi)的服務(wù)資源進(jìn)行再次分類(lèi),若再進(jìn)行人工分類(lèi),代價(jià)過(guò)大。近年來(lái),一些學(xué)者使用智能學(xué)習(xí)的方法來(lái)進(jìn)行分類(lèi),取得了一定的成果?,F(xiàn)在一些常用的智能分類(lèi)方法有聚類(lèi)算法、決策樹(shù)算法等。聚類(lèi)算法由于具有無(wú)監(jiān)督的學(xué)習(xí)能力,但在高維數(shù)據(jù)空間中,聚類(lèi)往往只存在于某些子空間中,并且不同的聚類(lèi)所關(guān)聯(lián)的子空間也存在差異。受“維度效應(yīng)”的影響,傳統(tǒng)的聚類(lèi)算法一般無(wú)法直接對(duì)高維數(shù)據(jù)進(jìn)行有效的聚類(lèi),需要通過(guò)一些特殊的處理。決策樹(shù)分類(lèi)的直觀表示方法較容易轉(zhuǎn)化為標(biāo)準(zhǔn)的數(shù)據(jù)庫(kù)查詢(xún),其歸納的方法行之有效,尤其適合大型數(shù)據(jù)集。但其算法的伸縮性太差,隨著數(shù)據(jù)量的增大其運(yùn)行時(shí)間大大增加。
[0004]目前,個(gè)性化檢索是服務(wù)資源檢索領(lǐng)域的熱點(diǎn)和難點(diǎn)。這一領(lǐng)域的研究范圍很廣,涉及到的問(wèn)題也很多。許多學(xué)者從不同的角度,提出多種技術(shù)方法,主要有:①網(wǎng)絡(luò)數(shù)據(jù)庫(kù)技術(shù)(web Database),構(gòu)建用戶等相關(guān)數(shù)據(jù)庫(kù);②過(guò)程跟蹤技術(shù)(Process Tracking),如Cookies技術(shù)等;③代理技術(shù)(Agent),代理指在分布式系統(tǒng)中持續(xù)自主的發(fā)揮作用的計(jì)算實(shí)體,他有獨(dú)立性、自主性和交互性等特性,,借助代理,可以很好地完成用戶與系統(tǒng)的交互數(shù)據(jù)挖掘技術(shù)(Data Mining),從海量數(shù)據(jù)中采掘出隱含的、先前未知的、對(duì)決策有潛在價(jià)值的知識(shí)和規(guī)則,并根據(jù)這些規(guī)則,預(yù)測(cè)用戶即將發(fā)生的行為;⑤推送技術(shù)(Push),根據(jù)用戶定義的準(zhǔn)則,自動(dòng)搜索用戶感興趣的服務(wù)資源,并主動(dòng)傳遞至用戶指定“地點(diǎn)”;⑥信息過(guò)濾技術(shù)(Information Filtering),信息過(guò)濾是一種用來(lái)過(guò)濾大量信息流,為用戶提供相關(guān)信息子集的技術(shù)。信息過(guò)濾可以分為:基于規(guī)則的過(guò)濾、基于協(xié)作的過(guò)濾、基于內(nèi)容的過(guò)濾,它們的目標(biāo)都是根據(jù)用戶興趣需要將最有價(jià)值的服務(wù)資源信息自動(dòng)推薦給用戶,并最大限度地節(jié)省用戶的閱讀時(shí)間。
[0005]傳統(tǒng)的服務(wù)資源檢索技術(shù)滿足了人們一定的檢索需要,但受通用性限制,無(wú)法滿足用戶一些復(fù)雜的查詢(xún)需求。隨著信息爆炸出現(xiàn),人們對(duì)檢索系統(tǒng)的功能、智能化程度以及檢索效果有了更高的要求,希望能提供更準(zhǔn)確、更精煉和更符合個(gè)人需要的檢索結(jié)果。
【發(fā)明內(nèi)容】
[0006]為解決傳統(tǒng)的檢索技術(shù)難以滿足人們對(duì)檢索系統(tǒng)功能、智能化程度以及檢索效果的要求的問(wèn)題,本發(fā)明提供了一種基于用戶興趣的服務(wù)資源檢索方法,來(lái)滿足用戶多樣化的實(shí)時(shí)需求,更加快捷的為用戶提供更優(yōu)質(zhì)的服務(wù)。
[0007]本發(fā)明為解決上述技術(shù)問(wèn)題采用的技術(shù)方案為:一種基于用戶興趣的服務(wù)資源檢索方法,首先,定義文檔集合D中的文檔總數(shù)為N,任一屬于集合D的文檔都可以表示為t維
向量的形式
【權(quán)利要求】
1.一種基于用戶興趣的服務(wù)資源檢索方法,首先,定義文檔集合D中的文檔總數(shù)為N,任一屬于集合D的文檔都可以表不為t維向量的形式:
2.根據(jù)權(quán)利要求1所述的一種基于用戶興趣的服務(wù)資源檢索方法,其特征在于:所述步驟八中更新該用戶的興趣剖像庫(kù),其具體步驟如下: ①初始化用戶興趣樹(shù),使每個(gè)節(jié)點(diǎn)均對(duì)應(yīng)一原始權(quán)值&(其中,0〈k〈n+l ),該數(shù)值表征用戶對(duì)此節(jié)點(diǎn)下所有文檔的訪問(wèn)次數(shù); ②葉子節(jié)點(diǎn)權(quán)值不變,重新計(jì)算每一個(gè)非葉子節(jié)點(diǎn)的權(quán)值:
【文檔編號(hào)】G06F17/30GK103761286SQ201410015693
【公開(kāi)日】2014年4月30日 申請(qǐng)日期:2014年1月14日 優(yōu)先權(quán)日:2014年1月14日
【發(fā)明者】魏汪洋, 張明川, 鄭瑞娟, 吳慶濤, 楊春蕾, 婁穎, 崔敏, 汪興, 蔡曉剛 申請(qǐng)人:河南科技大學(xué)