專利名稱:一種查詢結果的排序方法和裝置的制作方法
技術領域:
本申請涉及通信和計算機技術領域,特別是涉及一種查詢結果的排序方法和裝置。
背景技術:
用戶在信息查詢搜索引擎系統(tǒng)中進行信息查詢時,當用戶輸入查詢條件后,后臺的信息查詢系統(tǒng)從數(shù)據(jù)庫中提取符合用戶查詢條件的查詢結果,將查詢結果以一定的方式進行排序后展現(xiàn)給用戶,這樣,用戶就可以從展現(xiàn)出的,并以一定順序排列的查詢結果中選擇自己滿意的信息。其中,在將查詢結果進行排序時,信息查詢系統(tǒng)通常會在相關性基礎上考慮每個查詢結果的時效性。即,根據(jù)每個查詢結果的相關值,先將查詢結果分類到不同的相關性級別,再按照相關性級別由高到低進行排序。而在相同的相關性級別中,則根據(jù)每個查詢結果的發(fā)布時間進行排序,發(fā)布時間越近的查詢結果,排名越靠前。例如,以購物網站中的信息查詢系統(tǒng)對商品進行排序為例,當信息查詢系統(tǒng)從數(shù)據(jù)庫中提取符合用戶查詢條件的商品信息后,會在相關性基礎上考慮每個商品信息的時效性,在相同的相關性級別中,發(fā)布時間越近的商品信息,排名越靠前。但是,發(fā)明人在研究中發(fā)現(xiàn),在現(xiàn)有的排序方式下,為了使商品信息的排序靠前, 一部分供應商通過每天多次重發(fā)商品信息來不斷更新發(fā)布時間。每天大量的重發(fā)信息不僅對帶寬、數(shù)據(jù)庫和服務器等技術資源造成了大量的消耗,而且,以發(fā)布時間為導向的排序方法也導致了一部分供應商的惡性競爭行為,最終降低了用戶的體驗性。
發(fā)明內容
為了解決上述技術問題,本申請實施例提供了一種查詢結果的排序方法和裝置, 以節(jié)省資源消耗,提高用戶體驗。本申請實施例公開公開了如下技術方案一種搜索引擎中查詢結果的排序方法,包括根據(jù)提取出的符合用戶查詢條件的查詢結果,采集指示查詢結果質量的質量因子、指示查詢結果供應商的活躍度的活躍度因子、指示查詢結果供應商所在行業(yè)的行業(yè)因子、查詢結果供應商的信息點擊轉化率和信息反饋轉化率中的任意一個或者任意多個組合;將采集到的內容作為查詢結果的特征,基于支持向量機SVM回歸模型進行特征擬合,得到查詢結果的特征擬合值;基于查詢結果的相關值進行排序,在相同的相關性級別中,以查詢結果的特征擬合值從高到低的順序進行排列。一種搜索引擎中查詢結果的排序裝置,包括第一采集模塊,用于根據(jù)提取出的符合用戶查詢條件的查詢結果,采集指示查詢結果質量的質量因子、指示查詢結果供應商的活躍度的活躍度因子、指示查詢結果供應商所在行業(yè)的行業(yè)因子、查詢結果供應商的信息點擊轉化率和信息反饋轉化率中的任意一個或者任意多個組合;特征擬合模塊,用于將采集到的內容作為查詢結果的特征,基于支持向量機SVM回歸模型進行特征擬合,得到查詢結果的特征擬合值;排序模塊,用于基于查詢結果的相關值進行排序,在相同的相關性級別中,以查詢結果的特征擬合值從高到低的順序進行排列。由上述實施例可以看出,以質量因子、活躍度因子、行業(yè)因子、信息點擊轉化率和信息反饋轉化率中的任意一個或者任意多個組合做為導向的排序方法,弱化了查詢結果的時效性因素,不僅可以避免由供應商重發(fā)信息而導致的帶寬、數(shù)據(jù)庫和服務器等技術資源的消耗,節(jié)省了資源消耗,也避免了供應商的惡心競爭行為,提高了用戶的體驗。
為了更清楚地說明本申請實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本申請一種查詢結果的排序方法的一個實施例的流程圖;圖2為本申請一種查詢結果的排序方法的另一個實施例的流程圖;圖3為本申請一種信息查詢系統(tǒng)的總體結構圖;圖4為本申請一種查詢結果的排序方法的另一個實施例的流程圖;圖5為本申請一種商品信息的字段展現(xiàn)示意圖;圖6為本申請一種手機信息的屬性展現(xiàn)示意圖;圖7為本申請一種查詢結果的排序裝置的一個實施例的結構圖;圖8為本申請一種查詢結果的排序裝置的另一個實施例的結構圖。
具體實施例方式為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖對本申請實施例進行詳細描述。實施例一請參閱圖1,其為本申請一種查詢結果的排序方法的一個實施例的流程圖,該方法包括以下步驟步驟101 根據(jù)提取出的符合用戶查詢條件的查詢結果,采集查詢結果的特征,所述查詢結果的特征包括指示查詢結果質量的質量因子、指示查詢結果供應商的活躍度的活躍度因子、指示查詢結果供應商所在行業(yè)的行業(yè)因子、查詢結果供應商的信息點擊轉化率和信息反饋轉化率中的任意一個或者任意多個組合;其中,所述采集查詢結果信息質量的質量因子包括根據(jù)數(shù)據(jù)庫信息統(tǒng)計查詢結果的質量指標,所述查詢結果的質量指標包括信息完整率、屬性完整率和詳細說明完整率中的任意一個或者任意多個組合;對統(tǒng)計的查詢結果的質量指標進行線性擬合,得到所述質量因子。需要說明的是,本申請并不限定查詢結果的質量指標為信息完整率、屬性完整率和詳細說明完整率中的一個或者任意多個組合。例如,信息完整率、屬性完整率和詳細說明完整率都從不同的方面反映了一個查詢結果的質量,從而可以將其中的一個或者任意多個組合作為計算質量因子的質量指標。因此,根據(jù)查詢結果的不同,反映查詢結果的質量指標還可以是除上述之外的其它指標。應該明確的是,當查詢結果的內容確定后,反映查詢結果的質量指標也就隨之確定,因此,就可以根據(jù)數(shù)據(jù)庫信息統(tǒng)計相應的查詢結果的質量指標。例如,以查詢結果的質量指標為信息完整率、屬性完整率和詳細說明完整率為例來進行說明。當數(shù)據(jù)庫信息中保存了某個查詢結果的可填寫字段和已填寫字段時,統(tǒng)計可填寫字段數(shù)和已填寫字段數(shù),已填寫字段數(shù)與可填寫字段數(shù)的比值為信息完整率。當數(shù)據(jù)庫信息中保存了某個查詢結果的可填寫屬性和已填寫屬性時,統(tǒng)計可填寫屬性數(shù)和已填寫屬性數(shù),已填寫屬性數(shù)與可填寫屬性數(shù)的比值為屬性完整率。當數(shù)據(jù)庫信息中保存了有關某個查詢結果的詳細說明部分的已填圖片和文字描述時,符合詳細說明部分圖文并茂或者文字描述在50個字以上條件的,被歸為詳細說明完整率高,符合詳細說明部分中的文字描述在20-50個字之間條件的,被歸為詳細說明完整率中,符合詳細說明部分中的文字描述在20字以下條件的,被歸為詳細說明完整率低。詳細說明完整率高、詳細說明完整率中和詳細說明完整率低分別對應預先設置的某個數(shù)值。需要說明的是,本申請并不限定詳細說明完整率高、詳細說明完整率中和詳細說明完整率低所對應的條件,可以根據(jù)用戶的使用需要而任意設定。例如,當用戶對某個查詢結果的詳細說明完整率要求較高時,可以是符合文字描述在60個字以上條件的,被歸為詳細說明完整率高。反之,當用戶對查詢結果的詳細說明完整率要求較低時,可以是符合文字描述在40個字以上條件的,被歸為詳細說明完整率高。當統(tǒng)計出信息完整率、屬性完整率和詳細說明完整率后,對統(tǒng)計得到的信息完整率、屬性完整率和詳細說明完整率進行線性擬合,得到各條查詢結果的質量因子。例如,質量因子=信息完整率*0. 3+屬性完整率*0. 4+詳細說明完整率*0. 3。此處需要說明的是, 本申請并不限定進行線性擬合時各個查詢結果的質量指標中的權重數(shù),可以根據(jù)不同的應用需求而調整各個查詢結果的質量指標的權重數(shù)。其中,所述采集指示查詢結果供應商的活躍度的活躍度因子包括根據(jù)數(shù)據(jù)庫信息統(tǒng)計信息供應商的活躍度指標,所述查詢結果供應商的活躍度指標包括查詢結果供應商的在線時間和/或查詢結果供應商的活躍度分數(shù);對統(tǒng)計的查詢結果供應商的活躍度指標進行線性擬合,得到所述活躍度因子。需要說明的是,本申請同樣也并不限定查詢結果供應商的活躍度指標為查詢結果供應商的在線時間和/或查詢結果供應商的活躍度分數(shù)。例如,查詢結果供應商的在線時間和查詢結果供應商的活躍度分數(shù)都從不同的方面反映了一個查詢結果供應商的活躍度, 從而可以將查詢結果供應商的在線時間和/或查詢結果供應商的活躍度分數(shù)作為計算活躍度因子的查詢結果供應商的活躍度指標。因此,根據(jù)查詢結果的不同,反映查詢結果供應商的活躍度指標還可以是除上述之外的其他指標。應該明確是,當查詢結果內容確定后,反映查詢結果供應商的活躍度指標也就隨之確定,因此,也就可以根據(jù)數(shù)據(jù)庫信息統(tǒng)計相應的查詢結果供應商的活躍度指標。例如,以查詢結果供應商的活躍度指標為查詢結果供應商的在線時間和查詢結果供應商的活躍度分數(shù)為例來進行說明。當數(shù)據(jù)庫中保存了查詢結果供應商的在線時間和查詢結果供應商的活躍度分數(shù)時,統(tǒng)計一個固定期限內查詢結果供應商的在線時間和查詢結果供應商的活躍度分數(shù),對統(tǒng)計得到的查詢結果供應商的在線時間和查詢結果供應商的活躍度分數(shù)進行線性擬合,得到各條查詢結果的活躍度因子。例如,活躍度因子=信息供應商的在線時間*0. 5+信息供應商的活躍度分數(shù)*0. 5。此處也需要說明的是,本申請并不限定進行線性擬合時各個查詢結果供應商的活躍度指標的權重數(shù),可以根據(jù)不同的應用需求而調整各個查詢結果供應商的活躍度指標的權重數(shù)。其中,所述采集查詢結果供應商的信息點擊轉化率包括根據(jù)用戶日志信息統(tǒng)計指定時間內信息供應商的信息曝光數(shù)和信息點擊數(shù);將統(tǒng)計的信息點擊數(shù)與信息曝光數(shù)進行求商運算,得到所述信息供應商的信息點擊轉化率。所述采集查詢結果供應商的信息點擊反饋率包括根據(jù)用戶日志信息統(tǒng)計指定時間內查詢結果供應商的信息點擊數(shù)和信息反饋數(shù);將統(tǒng)計的信息反饋數(shù)與信息點擊數(shù)進行求商運算,得到所述查詢結果供應商的信息反饋數(shù)。例如,數(shù)據(jù)庫中保存了查詢結果供應商的信息曝光情況、信息點擊情況和信息反饋情況,所謂信息曝光就是指信息的公布,信息公布一次即為曝光一次。所謂信息反饋就是指被曝光的信息被點擊后,當用戶和信息供應商之間進行聯(lián)系,如,在線聊天等。此時,需要統(tǒng)計指定時間內信息供應商的信息曝光數(shù)、信息點擊數(shù)和信息反饋數(shù),將統(tǒng)計的信息點擊數(shù)與信息曝光數(shù)進行求商運算,得到查詢結果供應商的信息點擊轉化率,并將統(tǒng)計的信息反饋數(shù)與信息點擊數(shù)進行求商運算,得到查詢結果供應商的信息反饋數(shù)。步驟102 將采集到的內容作為查詢結果的特征,基于SVM (SupportVector Machine,支持向量機)回歸模型進行特征擬合,得到查詢結果的特征擬合值;其中,SVM回歸模型是將低維空間的線性不可分問題轉化為高維空間的線性可分問題。SVM的主要思想可以概括為兩點(1)對于線性不可分的情況,通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉化到高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對樣本的非線性特征進行線性分析成為可能。(2)它基于結構風險最小化理論之上在特征空間中建構最優(yōu)分割超平面,使得學習效果全局最優(yōu)化,并且在整個樣本空間的期望風險以某個概率滿足一定上界。在模型學習部分,通過核函數(shù)達到提升特征空間維度的目的,核函數(shù)選擇徑向基函數(shù)RBF,向量機類型采用支持向量回歸模型NU_SVR,這種方法可以得到連續(xù)的預測值,更符合應用需求。以質量因子、活躍度因子、信息點擊轉化率和信息反饋轉化率作為查詢結果的特征為例,詳細說明SVM模型的建立過程。先對抽取的一定數(shù)量的供應商樣本進行數(shù)據(jù)標注,如下表所示,其中,質量因子為 0 1之間連續(xù)值,0最差,1最好;活躍度因子為0 1之間連續(xù)值,0最差,1最好;信息點擊轉化率為0 1之間連續(xù)值,0最差,1最好;信息反饋轉化率為0 1之間連續(xù)值,0最差,1最好;標注結論為離散值,0或者1,0是差,1是好。
權利要求
1.一種搜索引擎中查詢結果的排序方法,其特征在于,包括根據(jù)提取出的符合用戶查詢條件的查詢結果,采集指示查詢結果質量的質量因子、指示查詢結果供應商的活躍度的活躍度因子、指示查詢結果供應商所在行業(yè)的行業(yè)因子、查詢結果供應商的信息點擊轉化率和信息反饋轉化率中的任意一個或者任意多個組合;將采集到的內容作為查詢結果的特征,基于支持向量機SVM回歸模型進行特征擬合, 得到查詢結果的特征擬合值;基于查詢結果的相關值進行排序,在相同的相關性級別中,以查詢結果的特征擬合值從高到低的順序進行排列。
2.根據(jù)權利要求1所述的方法,其特征在于,當采集指示查詢結果質量的質量因子、指示查詢結果供應商的活躍度的活躍度因子、查詢結果供應商的信息點擊轉化率、信息反饋轉化率和指示查詢結果供應商所在行業(yè)的行業(yè)因子的任意一個或者任意多個組合之后,還包括采集指示查詢結果時效性的時效性因子。
3.根據(jù)權利要求1所述的方法,其特征在于,所述采集指示查詢結果質量的質量因子包括根據(jù)數(shù)據(jù)庫信息統(tǒng)計查詢結果的質量指標,所述查詢結果的質量指標包括信息完整率、屬性完整率和詳細說明完整率中的任意一個或者任意多個組合;對統(tǒng)計的查詢結果的質量指標進行線性擬合,得到所述質量因子。
4.根據(jù)權利要求1所述的方法,其特征在于,所述采集指示查詢結果供應商的活躍度的活躍度因子包括根據(jù)數(shù)據(jù)庫信息統(tǒng)計查詢結果供應商的活躍度指標,所述查詢結果供應商的活躍度指標包括查詢結果供應商的在線時間和/或查詢結果供應商的活躍度分數(shù);對統(tǒng)計的查詢結果供應商的活躍度指標進行線性擬合,得到所述活躍度因子。
5.根據(jù)權利要求1所述的方法,其特征在于,所述采集查詢結果供應商的信息點擊轉化率包括根據(jù)用戶日志信息統(tǒng)計指定時間內查詢結果供應商的信息曝光數(shù)和信息點擊數(shù);將統(tǒng)計的信息點擊數(shù)與信息曝光數(shù)進行求商運算,得到所述查詢結果供應商的信息點擊轉化率。
6.根據(jù)權利要求1所述的方法,其特征在于,所述采集查詢結果供應商的信息點擊反饋率包括根據(jù)用戶日志信息統(tǒng)計指定時間內查詢結果供應商的信息點擊數(shù)和信息反饋數(shù);將統(tǒng)計的信息反饋數(shù)與信息點擊數(shù)進行求商運算,得到所述查詢結果供應商的信息反饋數(shù)。
7.一種搜索引擎中查詢結果的排序裝置,其特征在于,包括第一采集模塊,用于根據(jù)提取出的符合用戶查詢條件的查詢結果,采集指示查詢結果質量的質量因子、指示查詢結果供應商的活躍度的活躍度因子、指示查詢結果供應商所在行業(yè)的行業(yè)因子、查詢結果供應商的信息點擊轉化率和信息反饋轉化率中的任意一個或者任意多個組合;特征擬合模塊,用于將采集到的內容作為查詢結果的特征,基于支持向量機SVM回歸模型進行特征擬合,得到查詢結果的特征擬合值;排序模塊,用于基于查詢結果的相關值進行排序,在相同的相關性級別中,以查詢結果的特征擬合值從高到低的順序進行排列。
8.根據(jù)權利要求7所述的裝置,其特征在于,當?shù)谝徊杉K采集因子之后,還包括 第二采集模塊,用于采集指示查詢結果時效性的時效性因子。
全文摘要
本申請實施例公開了一種查詢結果的排序方法和裝置,其中,所述方法包括根據(jù)提取出的符合用戶查詢條件的查詢結果,采集指示查詢結果質量的質量因子、指示查詢結果供應商的活躍度的活躍度因子、指示查詢結果供應商所在行業(yè)的行業(yè)因子、查詢結果供應商的信息點擊轉化率和信息反饋轉化率中的任意一個或者任意多個組合;將采集到的內容作為查詢結果的特征,基于支持向量機SVM回歸模型進行特征擬合,得到查詢結果的特征擬合值;基于查詢結果的相關值進行排序,在相同的相關性級別中,以查詢結果的特征擬合值從高到低的順序進行排列。根據(jù)本申請實施例,可以節(jié)省資源消耗,提高用戶體驗。
文檔編號G06F17/30GK102339296SQ20101023922
公開日2012年2月1日 申請日期2010年7月26日 優(yōu)先權日2010年7月26日
發(fā)明者陳超, 韓小梅 申請人:阿里巴巴集團控股有限公司