欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多語義分析和個(gè)性化排序的語義檢索方法

文檔序號(hào):6618166閱讀:248來源:國(guó)知局
專利名稱:一種基于多語義分析和個(gè)性化排序的語義檢索方法
一種基于多語義分析和個(gè)性化排序的語義檢索方法技術(shù)領(lǐng)域
本發(fā)明屬于信息檢索領(lǐng)域,尤其涉及一種基于多語義分析和個(gè)性化排序的語義檢 索方法。
背景技術(shù)
搜索引擎是一個(gè)根據(jù)一定策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息并對(duì) 信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)并將用戶檢索的相關(guān)信息展示給用戶的系 統(tǒng)。為了應(yīng)對(duì)互聯(lián)網(wǎng)上的信息容量的快速增長(zhǎng),搜索引擎應(yīng)運(yùn)而生。時(shí)至今日,它已經(jīng)成為 了人們從網(wǎng)絡(luò)上獲取信息的必不可少的途徑。但是,當(dāng)今主流的基于關(guān)鍵字的搜索引擎如 Google、Baidu、Bing、Yahoo等,普遍存在一些棘手問題。如用戶搜索的結(jié)果會(huì)普遍存在大 量不相關(guān)的鏈接;由于用戶人群的多樣性,單一的結(jié)果不能針對(duì)性的滿足每個(gè)用戶的特殊 需要;搜索過程不考慮詞之間的語義相關(guān)度,且搜索結(jié)果沒有有效地按某種方式組織起來, 用戶不得費(fèi)時(shí)費(fèi)力瀏覽和挑選。
語義搜索是一種新型的不同于基于關(guān)鍵字搜索的搜索方式。一般來講,語義搜索 的工作不再拘泥于用戶所輸入請(qǐng)求語句的關(guān)鍵字本身,而能夠較為準(zhǔn)確地捕捉到用戶所輸 入語句潛在的意圖,從而能更準(zhǔn)確地向用戶返回最符合其需求的結(jié)果,相比傳統(tǒng)的搜索具 有較高的檢索精度和獨(dú)到的優(yōu)勢(shì)。Ramesh Singh和Myungjin Lee在其研究中試圖對(duì)搜索 結(jié)果進(jìn)行重新組織,來改善用戶的搜索體驗(yàn)。Lien-Fu Lai和Huanhuan Cao利用隱馬爾科 夫樹或其他模型來計(jì)算不同結(jié)果間關(guān)系的相關(guān)度,從而增加搜索結(jié)果的涵蓋面。FangLiu和 Jaime Teevan等提出了各種利用用戶歷史訪問信息進(jìn)行個(gè)性化搜索的方法,用以提高搜索 的精度。上述這些研究在語義搜索方面都進(jìn)行了適當(dāng)?shù)母倪M(jìn),但這些研究在基于對(duì)用戶查 詢歸類的個(gè)性化中,所能實(shí)行個(gè)性化的條件比較苛刻,且時(shí)間消耗的增加控制不好;其次, 過程中沒有考慮到與用戶相關(guān)的不同信息具有不同的權(quán)重。因此,對(duì)最終搜索結(jié)果的排序 處理方式仍舊不盡人意。發(fā)明內(nèi)容
針對(duì)現(xiàn)有信息檢索在檢索精度和用戶檢索體驗(yàn)方面存在的問題,本發(fā)明提出了一 種基于多語義分析和個(gè)性化排序的語義檢索方法。
一種基于多語義分析和個(gè)性化排序的語義檢索方法,其特征在于,具體包括以下 步驟
步驟1:利用爬蟲技術(shù)從互聯(lián)網(wǎng)上獲取網(wǎng)頁文檔的一部分作為訓(xùn)練模型進(jìn)行手工 分類,結(jié)合多語義分析方法MSA構(gòu)造詞向量庫(kù),將網(wǎng)頁文檔用向量表示,并把訓(xùn)練模型放到 支持向量機(jī)SVM分類器中對(duì)文檔向量進(jìn)行訓(xùn)練,新的網(wǎng)頁利用此模型借助SVM進(jìn)行分類;將 所有網(wǎng)頁的類別信息作為一個(gè)屬性寫到索引庫(kù)中;
步驟2 :基于步驟I形成的詞向量庫(kù),將用戶輸入的檢索關(guān)鍵詞構(gòu)造各自的詞向 量,形成最終的查詢向量,并將查詢向量與索引庫(kù)進(jìn)行類別匹配查詢,得到初始的網(wǎng)頁檢索結(jié)果。
步驟3 :根據(jù)用戶的個(gè)人定制信息和歷史訪問信息對(duì)初始檢索結(jié)果進(jìn)行優(yōu)化排序,并將最終檢索結(jié)果返回給用戶。
步驟I中,基于多語義分析方法MSA構(gòu)造詞向量庫(kù),并將網(wǎng)頁文檔的分類結(jié)果寫到索引中,形成索引庫(kù)的過程;具體包括以下幾個(gè)步驟
步驟11 :構(gòu)造概念空間;本發(fā)明設(shè)定空間為m維。
概念空間的基礎(chǔ)維度是一些類別標(biāo)簽的集合,能夠表示整個(gè)語料庫(kù)的信息,一般從語料庫(kù)分類標(biāo)簽中直接提取的m個(gè)類別標(biāo)簽構(gòu)成向量的m個(gè)維度,則網(wǎng)頁文檔中每個(gè)詞的語義信息由一個(gè)m維向量來描述,稱為詞向量;
步驟12 :詞向量分量值的確定
詞是從訓(xùn)練模型的網(wǎng)頁文檔中提取出來的,詞向量的每一個(gè)分量值的大小由訓(xùn)練模型的所有文檔來決定,詞向量的每一個(gè)分量值計(jì)算公式為
權(quán)利要求
1.一種基于多語義分析和個(gè)性化排序的語義檢索方法,其特征在于,具體包括以下步驟 步驟1:利用爬蟲技術(shù)從互聯(lián)網(wǎng)上獲取網(wǎng)頁文檔的一部分作為訓(xùn)練模型進(jìn)行手工分類,結(jié)合多語義分析方法MSA構(gòu)造詞向量庫(kù),將網(wǎng)頁文檔用向量表示,并把訓(xùn)練模型放到支持向量機(jī)SVM分類器中對(duì)文檔向量進(jìn)行訓(xùn)練,新的網(wǎng)頁利用此模型借助SVM進(jìn)行分類;將所有網(wǎng)頁的類別信息作為一個(gè)屬性寫到索引庫(kù)中; 步驟2 :基于步驟I形成的詞向量庫(kù),將用戶輸入的檢索關(guān)鍵詞構(gòu)造各自的詞向量,形成最終的查詢向量,并將查詢向量與索引庫(kù)進(jìn)行類別匹配查詢,得到初始的網(wǎng)頁檢索結(jié)果; 步驟3 :根據(jù)用戶的個(gè)人定制信息和歷史訪問信息對(duì)初始檢索結(jié)果進(jìn)行優(yōu)化排序,并將最終檢索結(jié)果返回給用戶。
2.根據(jù)權(quán)利要求1所述的一種基于多語義分析和個(gè)性化排序的語義檢索方法,其特征在于,所述步驟I中,基于多語義分析方法MSA構(gòu)造詞向量庫(kù),并將網(wǎng)頁文檔的分類結(jié)果寫到索引中,形成索引庫(kù)的過程;具體包括步驟 步驟11 :構(gòu)造概念空間;本發(fā)明設(shè)定空間為m維; 概念空間的基礎(chǔ)維度是一些類別標(biāo)簽的集合,能夠表示整個(gè)語料庫(kù)的信息,一般從語料庫(kù)分類標(biāo)簽中直接提取的m個(gè)類別標(biāo)簽構(gòu)成向量的m個(gè)維度,則網(wǎng)頁文檔中每個(gè)詞的語義信息由一個(gè)m維向量來描述,稱為詞向量; 步驟12:詞向量分量值的確定 詞是從訓(xùn)練模型的網(wǎng)頁文檔中提取出來的,詞向量的每一個(gè)分量值的大小由訓(xùn)練模型的所有文檔來決定;詞向量的每一個(gè)分量值計(jì)算公式為
3.根據(jù)權(quán)利要求1所述的一種基于多語義分析和個(gè)性化排序的語義檢索方法,其特征在于,所述步驟2中,查詢向量與索引庫(kù)的匹配分析包括子步驟 步驟21 :基于詞向量庫(kù),將用戶輸入的搜索關(guān)鍵詞向量表示; 記搜索關(guān)鍵詞集合為=KEY=Ikeypkey2, . . .,keyj ,從已經(jīng)建立好的詞向量庫(kù)中提取對(duì)應(yīng)每個(gè)詞的詞向量,構(gòu)建每個(gè)詞Iceyi的向量形式7丨,則所有關(guān)鍵詞可形成查詢向量集合T =巧,其中,當(dāng)詞向量庫(kù)中不存在keyi時(shí),萬=5; 步驟22 :在步驟21的基礎(chǔ)上,形成搜索關(guān)鍵詞在m維向量空間中的查詢向量查詢向量公式為
4.根據(jù)權(quán)利要求3所述的一種基于多語義分析和個(gè)性化排序的語義檢索方法,其特征在于,所述Lucene基礎(chǔ)排序算法如公式為
5.根據(jù)權(quán)利要求1所述的一種基于多語義分析和個(gè)性化排序的語義檢索方法,其特征在于,根據(jù)用戶的個(gè)人定制信息對(duì)初始排序結(jié)果進(jìn)行優(yōu)化處理具體包括以下步驟 步驟301 :收集用戶查詢頻率最高的三種個(gè)人定制信息第一定制信息U、第二定制信息V和第三定制信息S,并確定這三種個(gè)人定制信息的權(quán)值為A、B和E ; 步驟302 :用戶定制信息確定時(shí)的類別查詢匹配;此時(shí),由于用戶每項(xiàng)個(gè)人信息的類別都已確定,因此,對(duì)初始排序結(jié)果中文檔的Lucene基礎(chǔ)得分進(jìn)行修改I.若U、V和s均為0,則此文檔評(píng)分不變; II.若U、V和s中有一項(xiàng)不為0,則
6.根據(jù)權(quán)利要求1所述的一種基于多語義分析和個(gè)性化排序的語義檢索方法,其特征在于,根據(jù)用戶歷史訪問信息對(duì)初始排序結(jié)果進(jìn)行優(yōu)化處理過程具體包括以下步驟; 步驟311 :若文檔d是歷史或者熱鏈接hotlink則進(jìn)行如下算法,否則跳過此步; 步驟312 :設(shè)初始排名為r,則d的新的排名為
全文摘要
本發(fā)明公開了信息檢索領(lǐng)域的一種基于多語義分析和優(yōu)化排序的語義檢索方法。其技術(shù)方案是,首先利用爬蟲等技術(shù)從互聯(lián)網(wǎng)上獲取網(wǎng)頁文檔,利用支持向量機(jī)進(jìn)行分類處理,借助多語義分析方法構(gòu)造詞向量庫(kù),并將多分類結(jié)果寫到索引中,形成索引庫(kù)。然后基于詞向量庫(kù),將用戶輸入的搜索關(guān)鍵詞形成查詢向量,與索引庫(kù)進(jìn)行類別匹配查詢,得到初始排序結(jié)果。最后,根據(jù)用戶的個(gè)人定制信息和歷史訪問信息對(duì)初始排序結(jié)果進(jìn)行優(yōu)化,并將優(yōu)化后的結(jié)果返回給用戶。本發(fā)明通過基于多語義分析和優(yōu)化排序的語義檢索方法,形成語義豐富的詞向量庫(kù)和索引庫(kù),借助個(gè)人定制信息和歷史訪問信息,使得檢索結(jié)果能更好地符合用戶的檢索需求,提高用戶的檢索滿意度。
文檔編號(hào)G06F17/30GK103020164SQ20121048857
公開日2013年4月3日 申請(qǐng)日期2012年11月26日 優(yōu)先權(quán)日2012年11月26日
發(fā)明者馬應(yīng)龍, 張瀟瀾, 于瀟 申請(qǐng)人:華北電力大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
吴忠市| 鸡泽县| 东城区| 泸州市| 攀枝花市| 石棉县| 普陀区| 肥西县| 峨眉山市| 孙吴县| 耒阳市| 大连市| 乌鲁木齐县| 和林格尔县| 沙洋县| 潮安县| 唐海县| 龙江县| 赤峰市| 阿勒泰市| 灵武市| 彭阳县| 祥云县| 定州市| 浪卡子县| 鹤岗市| 库伦旗| 吉林市| 盘锦市| 合肥市| 宜都市| 神池县| 白沙| 云林县| 乐亭县| 甘肃省| 林甸县| 宁波市| 威信县| 临洮县| 子长县|