欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

與查詢相關(guān)的多排序模型集成算法的制作方法

文檔序號:6483448閱讀:414來源:國知局
專利名稱:與查詢相關(guān)的多排序模型集成算法的制作方法
技術(shù)領域
本發(fā)明涉及信息檢索及機器學習領域,特別是多個與查詢相關(guān)的排序支持向量機 模型融合算法。
背景技術(shù)
排序?qū)W習是目前信息檢索與機器學習領域研究的熱點問題。信息檢索是指從大量 的文檔集合中查找到與給定的查詢相關(guān)的信息子集,是處理海量文本信息的重要手段。在 目前絕大多數(shù)的信息檢索系統(tǒng)中,其檢索出來的信息(如文檔等)都以排序的方式返回給 用戶,因此,信息檢索模型研究的核心問題也就歸結(jié)為如何高效地為信息進行排序。排序?qū)W 習的目的是尋找一個能夠精確預測未知數(shù)據(jù)i的標號y的決策函數(shù)/(幻。傳統(tǒng)的排序?qū)W習方法大致可以分為三個大類基于回歸的排序?qū)W習、基于分類的 排序?qū)W習和基于順序回歸的排序?qū)W習?;陧樞蚧貧w的排序?qū)W習算法是當前排序?qū)W習研 究的熱點,包括以排序感知機算法(PRank)、改進的排序感知機算法(Large Marge PRank) 和支持向量順序回歸算法(Support Vector Ordinal Regression)為代表的基于數(shù)據(jù) 點(Point-wise)排序?qū)W習算法,以排序支持向量機算法(Rank SVM)、RankBoost算法和 RankNet算法為代表的基于有序?qū)?I^ir-wise)的排序?qū)W習算法。近年來,一些研究者針對排序問題的特性,提出了多種排序?qū)W習算法,有些方法暗 含著一定的與查詢相關(guān)的多排序模型集成思想。這些方法可分為三類一是在建立模型的 過程中以一個查詢下所有的樣本為一個訓練單元,稱之為基于列表(Listwise)的排序?qū)W 習;二是以排序性能的評價指標作為優(yōu)化目標,直接優(yōu)化評價指標(Directly optimizing evaluation measures);三是建立多個模型,對于不同的查詢使用不同的模型,稱之為與查 詢相關(guān)的排序?qū)W習(Query Dependent Ranking)?;诹斜淼呐判?qū)W習方法以一個列表為基本的學習單元,取得了比基于有序?qū)Φ?排序?qū)W習方法更好的效果。Cao等在2007年第一次提出基于列表的排序?qū)W習方法ListNet, 以似然函數(shù)(Likelihood)作為輸出排序列表與真實排序列表之間差異的度量。此后,又 相繼提出了以余弦差異(Cosine)為度量RankCos,以交叉熵(Cross Entropy)為度量的 LiseMLE 等。針對傳統(tǒng)排序?qū)W習損失函數(shù)優(yōu)化過程與排序性能評價指標脫離的問題,一些研究 者提出在損失函數(shù)優(yōu)化過程考慮具有排序特性評價指標(如MAP、NDCG)的排序?qū)W習方法, 稱為直接優(yōu)化評價指標排序?qū)W習。Yue等提出基于結(jié)構(gòu)化支持向量機(Structure SVM)的 SVM MAP方法;Xu等同時提出了直接優(yōu)化評價指標并使用Boosting方法優(yōu)化的AdaRank方法。與查詢相關(guān)的排序?qū)W習方法在傳統(tǒng)共性排序模型基礎上,對不同查詢建立不同的 特性模型,并根據(jù)測試查詢找出與之對應的特性模型。Geng等在2008年提出基于KNN方法 的與查詢相關(guān)的排序?qū)W習算法,并分別提出離線學習和在線學習兩種模型。但是,基于列表的排序?qū)W習方法和直接優(yōu)化評價指標排序?qū)W習方法在建模過程中都沒有特別考慮查詢之間的差異。與查詢相關(guān)的排序?qū)W習算法雖比傳統(tǒng)建立單一模型增加 考慮了查詢特性,但依然存在兩個問題一是特性的選擇過程與排序模型的建立相脫離,并 沒有體現(xiàn)于排序模型損失上;二是訓練得到多個模型,不便于最終排序結(jié)果的處理。

發(fā)明內(nèi)容
本發(fā)明與傳統(tǒng)方法不同之處在于首先建立多個子模型,然后考慮不同查詢之間 的差異性,建立與查詢相關(guān)的多排序模型集成模型。其步驟包括以排序支持向量機為子排序模型,以每一個查詢及其相關(guān)文檔為訓練子集,查 詢-文檔對為基本訓練數(shù)據(jù),建立樣本級訓練模型,著重于構(gòu)建新的能反映排序?qū)W習問題 中的查詢差異性和有序性的訓練數(shù)據(jù);以樣本級訓練模型的輸出作為訓練數(shù)據(jù),在整個訓練數(shù)據(jù)集上建立查詢級訓練模 型,給出新的損失函數(shù)作為優(yōu)化目標,并利用此損失函數(shù)實現(xiàn)樣本級模型融合;當有新的查詢需要預測時,需要構(gòu)建與訓練數(shù)據(jù)形式相同的預測數(shù)據(jù),因此需要 使用樣本級模型構(gòu)建特征數(shù)據(jù)和查詢級模型兩步預測。將本發(fā)明提出的算法應用于文本檢索與網(wǎng)頁檢索的實驗表明,使用本發(fā)明提出的 與查詢相關(guān)的多排序模型集成模型可以取得比傳統(tǒng)排序?qū)W習模型更好的性能。本發(fā)明提出 的多模型融合思想除排序?qū)W習之外,還可應用于多元分類、序列標注等問題,在文本分類, 信息檢索、網(wǎng)絡搜索等領域具有廣泛的應用前景。


圖1與查詢相關(guān)的多排序模型集成算法流程圖
具體實施例方式1.數(shù)據(jù)采集及預處理將文本文檔或互聯(lián)網(wǎng)中的網(wǎng)頁與用戶查詢進行匹配,建立查詢-文檔對。所有查 詢-文檔對都被表示成了特征向量的形式。本發(fā)明主要采用了以下特征第一類是基本特征,主要反映了查詢與文檔的各個域之間的匹配情況,比如共現(xiàn)詞頻
權(quán)利要求
1.與查詢相關(guān)的多排序模型集成算法,其特征在于,為每一個查詢及其相關(guān)文檔集合 建立一個子排序模型,并將子排序模型進行向量化表示,進而將多個查詢相關(guān)的排序模型 轉(zhuǎn)化為特征數(shù)據(jù),從而實現(xiàn)多排序模型的集成。
2.根據(jù)權(quán)利1與查詢相關(guān)的多排序模型集成算法,其特征在于將多個子排序模型進行 向量化表示后轉(zhuǎn)化為特征數(shù)據(jù),且可以描述查詢及其相關(guān)文檔的特性,體現(xiàn)出不同查詢及 其相關(guān)文檔之間的差異。
3.與查詢相關(guān)的多排序模型集成算法,包括四個步驟1.數(shù)據(jù)采集及預處理、2.子排 序模型的訓練、3.多排序模型的集成訓練4.使用集成排序模型對檢索文檔結(jié)果進行排序。
4.根據(jù)權(quán)利要求3的一種多查詢相關(guān)的排序模型融合算法,其具體步驟如下步驟Si.將文本文檔或互聯(lián)網(wǎng)中的網(wǎng)頁與用戶查詢進行匹配,建立查詢-文檔對。所 有查詢-文檔對都被表示成了特征向量的形式;步驟S2.以每一個查詢及其相關(guān)文檔為訓練子集,查詢-文檔對為基本訓練數(shù)據(jù),建立 樣本級訓練模型,著重于構(gòu)建新的能反映排序?qū)W習問題中的查詢差異性和有序性的訓練數(shù) 據(jù);步驟S3.以樣本級訓練模型的輸出作為訓練數(shù)據(jù),在整個訓練數(shù)據(jù)集上建立查詢級訓 練模型,給出新的損失函數(shù)作為優(yōu)化目標,并利用此損失函數(shù)實現(xiàn)樣本級模型融合;步驟S4.當使用集成排序模型對新查詢的檢索結(jié)果進行排序時,需要構(gòu)建與訓練數(shù)據(jù) 形式相同的預測數(shù)據(jù),因此需要使用樣本級模型構(gòu)建特征數(shù)據(jù)和查詢級模型預測兩步。
5.根據(jù)權(quán)利要求3或4的與查詢相關(guān)的多排序模型集成,其特征在于在查詢級和樣 本級建立新的損失函數(shù)作為優(yōu)化目標,并利用此損失函數(shù)調(diào)節(jié)不同查詢產(chǎn)生損失之間的權(quán) 重。
全文摘要
本發(fā)明公開一種全新的與查詢相關(guān)的多排序模型集成方法。該方法為每一個查詢及其相關(guān)文檔建立子排序模型,并將子排序模型進行向量化表示,進而將多個查詢相關(guān)的排序模型轉(zhuǎn)化為特征數(shù)據(jù),從而實現(xiàn)多排序模型的集成。并以排序支持向量機為子排序模型,在查詢級和樣本級建立新的損失函數(shù)作為優(yōu)化目標,并利用此損失函數(shù)調(diào)節(jié)不同查詢產(chǎn)生損失之間的權(quán)重,提出多查詢相關(guān)的排序支持向量機融合算法。將本發(fā)明提出的與查詢相關(guān)的多排序模型集成算法應用于實際任務,可以取得比傳統(tǒng)模型更好的性能。本發(fā)明提出的多模型融合方法除排序?qū)W習之外,還可應用于多元分類、序列標注等問題,在信息檢索、網(wǎng)絡搜索等領域具有廣泛的應用前景。
文檔編號G06F17/30GK102043776SQ20091007078
公開日2011年5月4日 申請日期2009年10月14日 優(yōu)先權(quán)日2009年10月14日
發(fā)明者盧敏, 廖振, 王揚, 謝茂強, 黃亞樓 申請人:南開大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
乐都县| 肃北| 临高县| 东源县| 海淀区| 商丘市| 华坪县| 奈曼旗| 衡南县| 竹北市| 朝阳区| 菏泽市| 军事| 云龙县| 栾川县| 神农架林区| 盖州市| 收藏| 镇平县| 内乡县| 罗源县| 连平县| 鹰潭市| 海南省| 武川县| 萝北县| 门源| 济南市| 亳州市| 仁寿县| 航空| 平阴县| 三门峡市| 克东县| 崇礼县| 高要市| 洪湖市| 双鸭山市| 海盐县| 江源县| 佛山市|