本申請涉及電子信息領(lǐng)域,尤其涉及一種新聞搜索方法及裝置。
背景技術(shù):
與傳統(tǒng)的網(wǎng)頁檢索不同,新聞搜索目前還沒有完整通用的算法和模型。目前,對于新聞的搜索,主要基于pagerank算法,該算法的基本思想是:頁面的重要程度用pagerank值來衡量。pagerank值主要體現(xiàn)在兩個方面:引用該頁面的頁面?zhèn)€數(shù)和引用該頁面的頁面重要程度。一個頁面p(a)被另一個頁面p(b)引用,可看成p(b)推薦p(a),p(b)將其重要程度(pagerank值)平均的分配p(b)所引用的所有頁面,所以越多頁面引用p(a),則越多的頁面分配pagerank值給p(a),pagerank值也就越高,p(a)越重要。另外,p(b)越重要,它所引用的頁面能分配到的pagerank值就越多,p(a)的pagerank值也就越高,也就越重要。
然而,基于pagerank算法的新聞搜索方法,僅依靠被引用的次數(shù)和與引用頁面的重要程度篩選,而忽略了新聞的相關(guān)程度,以至于一些主題不相關(guān)的網(wǎng)頁(如廣告頁面)獲得較大的pagerank值,從而影響了搜索結(jié)果的準確性。
技術(shù)實現(xiàn)要素:
本申請?zhí)峁┝艘环N新聞搜索方法及裝置,目的在于解決如何提高新聞的搜索準確性的問題。
為了實現(xiàn)上述目的,本申請?zhí)峁┝艘韵录夹g(shù)方案:
一種新聞搜索方法,包括:
依據(jù)搜索關(guān)鍵詞,得到與所述搜索關(guān)鍵詞相關(guān)的候選項;
依據(jù)新聞的屬性,確定所述候選項的屬性分,并依據(jù)所述屬性分對所述候選項排序,所述新聞的屬性包括新聞的點擊曝光率和新聞的實效周期;
按照排序結(jié)果,展示搜索結(jié)果。
可選的,所述新聞的屬性還包括:
新聞的媒體分數(shù)、被操作的次數(shù)以及被閱讀的時長中的至少一項。
可選的,所述依據(jù)新聞的屬性,確定所述候選項的屬性分包括:
確定新聞經(jīng)過平滑和時間衰減后的點擊曝光率;
確定新聞的時間衰減分數(shù),所述時間衰減分數(shù)用于表示所述新聞的實效周期;
獲取所述新聞的媒體分數(shù)、被操作的次數(shù)以及被閱讀的時長;
依據(jù)所述新聞經(jīng)過平滑和時間衰減后的點擊曝光率、所述新聞的時間衰減分數(shù)、所述新聞的媒體分數(shù)、被操作的次數(shù)以及被閱讀的時長,計算所述候選項的分數(shù)。
可選的,所述確定新聞經(jīng)過平滑和時間衰減后的點擊曝光率包括:
新聞經(jīng)過平滑和時間衰減后的點擊率為
新聞經(jīng)過平滑和時間衰減后的曝光率為
可選的,所述依據(jù)所述新聞經(jīng)過平滑和時間衰減后的點擊曝光率、所述新聞的時間衰減分數(shù)、所述新聞的媒體分數(shù)、被操作的次數(shù)以及被閱讀的時長,計算所述候選項的分數(shù)包括:
使用score=smoothscore*rulescore*div+log2(1+share)+log2(1+comment)+log2(1+collection)+log2(1+praise)+readtime計算所述候選項中的任意一項的分數(shù),其中,smoothscore表示所述該新聞經(jīng)過平滑和時間衰減后的點擊曝光率,div為該新聞的時間衰減分數(shù),readtime為平滑后的該新聞的被閱讀時長,share為該新聞的分享數(shù),comment該新聞的評論數(shù),collection為該新聞的收藏數(shù),praise為該新聞的點贊數(shù)。
可選的,所述平滑后的該新聞的被閱讀時長的確定方法包括:
其中,allreadtime為該新聞被所有用戶所閱讀的總時長,allclick為該新聞所有的點擊次數(shù),preadtime為該新聞虛擬的閱讀時長,pclick為該新聞虛擬的點擊次數(shù)。
可選的,在所述按照排序結(jié)果,展示搜索結(jié)果之前,還包括:
依據(jù)質(zhì)量參數(shù),確定所述排序結(jié)果中的各個候選項的質(zhì)量分,所述質(zhì)量參數(shù)包括新聞的長度、段落數(shù)、包括的圖片以及標題的長度;
將所述候選項中的任意一項的質(zhì)量分與該項的屬性分相乘,得到總分;
依據(jù)所述候選項中每一項的總分,對所述候選項進行重排序,得到更新的排序結(jié)果。
一種新聞的搜索裝置,包括:
候選項確定模塊,用于依據(jù)搜索關(guān)鍵詞,得到與所述搜索關(guān)鍵詞相關(guān)的候選項;
打分模塊,用于依據(jù)新聞的屬性,確定所述候選項的屬性分,并依據(jù)所述屬性分對所述候選項排序,所述新聞的屬性包括新聞的點擊曝光率和新聞的實效周期;
展示模塊,用于按照排序結(jié)果,展示搜索結(jié)果。
可選的,所述新聞的屬性還包括:
新聞的媒體分數(shù)、被操作的次數(shù)以及被閱讀的時長中的至少一項。
可選的,所述打分模塊用于依據(jù)新聞的屬性,確定所述候選項的屬性分包括:
所述打分模塊具體用于,確定新聞經(jīng)過平滑和時間衰減后的點擊曝光率;確定新聞的時間衰減分數(shù),所述時間衰減分數(shù)用于表示所述新聞的實效周期;獲取所述新聞的媒體分數(shù)、被操作的次數(shù)以及被閱讀的時長;依據(jù)所述新聞經(jīng)過平滑和時間衰減后的點擊曝光率、所述新聞的時間衰減分數(shù)、所述新聞的媒體分數(shù)、被操作的次數(shù)以及被閱讀的時長,計算所述候選項的分數(shù)。
可選的,所述打分模塊用于確定新聞經(jīng)過平滑和時間衰減后的點擊曝光率包括:
所述打分模塊具體用于,計算新聞經(jīng)過平滑和時間衰減后的點擊率為
可選的,所述打分模塊用于依據(jù)所述新聞經(jīng)過平滑和時間衰減后的點擊曝光率、所述新聞的時間衰減分數(shù)、所述新聞的媒體分數(shù)、被操作的次數(shù)以及被閱讀的時長,計算所述候選項的分數(shù)包括:
所述打分模塊具體用于,使用score=smoothscore*rulescore*div+log2(1+share)+log2(1+comment)+log2(1+collection)+log2(1+praise)+readtime計算所述候選項中的任意一項的分數(shù),其中,smoothscore表示所述該新聞經(jīng)過平滑和時間衰減后的點擊曝光率,div為該新聞的時間衰減分數(shù),readtime為平滑后的該新聞的被閱讀時長,share為該新聞的分享數(shù),comment該新聞的評論數(shù),collection為該新聞的收藏數(shù),praise為該新聞的點贊數(shù)。
可選的,所述打分模塊還用于:
按照
可選的,還包括:
重排序模塊,用于在所述展示模塊按照排序結(jié)果,展示搜索結(jié)果之前,依據(jù)質(zhì)量參數(shù),確定所述排序結(jié)果中的各個候選項的質(zhì)量分,所述質(zhì)量參數(shù)包括新聞的長度、段落數(shù)、包括的圖片以及標題的長度;將所述候選項中的任意一項的質(zhì)量分與該項的屬性分相乘,得到總分;依據(jù)所述候選項中每一項的總分,對所述候選項進行重排序,得到更新的排序結(jié)果。
本申請所述的新聞搜索方法及裝置,依據(jù)新聞的屬性,對與搜索關(guān)鍵詞相關(guān)的候選項進行打分排序后展示,因為考慮到了新聞的屬性,所以,能夠提高新聞搜索的準確性。
附圖說明
為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本申請實施例公開的一種新聞搜索方法的流程圖;
圖2為decay和scale影響高斯衰減函數(shù)的衰減斜率的示意圖;
圖3為本申請實施例公開的又一種新聞搜索方法的流程圖;
圖4為本申請實施例公開的一種新聞搜索裝置的結(jié)構(gòu)示意圖。
具體實施方式
本申請實施例公開的新聞搜索方法及裝置,以新聞本身的特有屬性為依據(jù),對與搜索關(guān)鍵詞相關(guān)的新聞進行打分,按照分數(shù)得到搜索結(jié)果,進一步的,還基于新聞的內(nèi)容對搜索結(jié)果進行進一步排序,得到最終的搜索結(jié)果。
下面將結(jié)合本申請實施例中的附圖,對本申請實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
圖1為本申請實施例公開的一種新聞搜索方法,包括以下步驟:
s101:依據(jù)搜索關(guān)鍵詞,得到與搜索關(guān)鍵詞相關(guān)的候選項。
依據(jù)搜索關(guān)鍵詞得到相關(guān)的候選項的具體實現(xiàn)方式將在以下實施例中詳細說明。
s102:依據(jù)新聞的屬性,確定所述候選項的屬性分,并依據(jù)屬性分對候選項排序。
本實施例中,新聞的屬性包括新聞的點擊曝光率和新聞的實效周期??蛇x的,新聞的屬性還可以包括新聞被操作(操作包括但不限于分享、評論、收藏和點贊)的次數(shù)以及被閱讀的時長中的至少一項。
下面以上述所列的全部屬性為例,對s102進行詳細說明。
新聞搜索項的屬性分的計算公式如式(1):
score=smoothscore*rulescore*div+log2(1+share)+log2(1+comment)+log2(1+collection)+log2(1+praise)+readtime(1)
式(1)中,score表示屬性分。
smoothscore表示經(jīng)過平滑和時間衰減之后的點擊曝光率。通過式(2)得到smoothscore:
式(2)中,dclick表示時間衰減后的新聞點擊率。dimp表示時間衰減后的新聞曝光率。具體的,
其中,d為衰減系數(shù),start為該新聞生成的起始時間,t表示當(dāng)前時刻,單位為天,當(dāng)t-start<1時,即當(dāng)天的新聞被點擊不發(fā)生任何衰減,此時不做時間衰減,此后按照天數(shù)進行衰減,衰減幅度為dt-start-1,impt為t時刻的曝光次數(shù),clickt為t時刻的點擊次數(shù)。
式(2)中,alpha和beta是貝葉斯平滑算法計算求得的平滑參數(shù)。平滑的意義在于:
新聞的點擊率在檢索中有著重要的作用,對于有限的流量,通常要選擇出最優(yōu)質(zhì)的新聞進行推送,此時,新聞點擊率(ctr)可以作為新聞的一項打分,選擇和確定新聞的順序。ctr可以定義為:對于一個新聞的被點擊(click)的次數(shù)與被展示(impression)的次數(shù)的比值。即:
但是在計算ctr時,由于數(shù)據(jù)的稀疏性,直接計算得到的ctr通常具有較大的偏差,主要是由對分子dimp和分母dclick的估計不準確引起的,比如impression的次數(shù)很小,如1次,點擊的次數(shù)也很小,如1,按照上述的ctr的計算方法,其ctr為1,此時的點擊率就被估計高了,又或者展示的次數(shù)很大,但是點擊的次數(shù)很小,此時,利用上述的方法求得的ctr就會比實際的ctr要小得多。為了解決這樣的問題,本實施例中,對ctr的公式進行平滑處理。
本實施例選擇了貝葉斯平滑算法,該算法實現(xiàn)簡單,只需要求解兩個參數(shù)alpha和beta,所有新聞平滑均用一個平滑計算公式(smoothscore的計算公式),因此十分適合大規(guī)模分布式計算,同時由于用戶的檢索興趣不會在短短幾天發(fā)生十分劇烈的變化,所以支持離線更新模型,例如,每三天使用貝葉斯平滑模型離線更新參數(shù)alpha和beta,并按照公式(2)計算新聞的平滑點擊率。
式(1)中,rulescore為人工規(guī)則分數(shù),一般用來過濾或者增加一些臨時規(guī)則。即人為設(shè)置一些規(guī)則,使用這些規(guī)則得到的分數(shù)。
式(1)中,div為時間衰減分數(shù),用來表示新聞的時效性??梢灾苯诱{(diào)用搜索服務(wù)器elasticsearch上的時間衰減函數(shù)得到div。具體的,選擇衰減類型為高斯衰減(gauss)。時間衰減函數(shù)涉及到的參數(shù)共有四個,分別是:
origin,表示當(dāng)前時刻。
offset,表示平緩區(qū)間。在距離origin前后offset的時間區(qū)間內(nèi),新聞不做衰減,本實施例設(shè)定的offset為6h,表示在距離當(dāng)前時刻前后六個小時內(nèi)所產(chǎn)生的新聞,不做時間衰減。
scale和decay是一對參數(shù),scale代表新聞衰減到指定decay值的時間范圍,decay表示時間因子在scale范圍內(nèi)衰減到的數(shù)值。舉例說明,當(dāng)scale=15天,decay=0.3時,表示在15天內(nèi),該新聞必須衰減到0.3。圖2為decay和scale直接影響著高斯衰減函數(shù)的衰減斜率的示意圖,scale和decay越小,就代表新聞的衰減得越快,新聞的生命周期越短,圖2中,exp是指以e為底的指數(shù)函數(shù),lin是指以e為底的對數(shù)函數(shù),gauss指高斯分布。
式(1)中,也可以加入媒體分數(shù)mediascore作為一項因素(即求和中加上mediascore),mediascore采用式(3)計算:
其中,mt為運營媒體分數(shù),運營部門對常見的新聞媒體來源質(zhì)量進行了評級,a級最好,d級最差,分別對應(yīng)a級(4分),b級(3分),c級(2分),d級(0分)。
式(1)中,readtime為平滑后的新聞的被閱讀時長:
allreadtime為新聞被所有用戶所閱讀的總時長,allclick為新聞所有的點擊次數(shù),preadtime為新聞虛擬的閱讀時長,本實施例中,依據(jù)專家經(jīng)驗設(shè)定了preadtime的固定值,pclick為新聞虛擬的點擊次數(shù),即公式(2)中通過貝葉斯平滑所計算出的參數(shù)alpha。
式(1)中share,comment,collection,praise依次為新聞的分享數(shù),評論數(shù),收藏數(shù)和點贊數(shù)。
s103:按照排序結(jié)果,向用戶展示搜索結(jié)果。
具體的,可以按照分數(shù)從高到低的順序,向用戶展示各個候選項。
從圖1所示的過程可以看出,依據(jù)新聞獨特的屬性對與搜索關(guān)鍵詞相關(guān)的候選項進行打分,并按照分數(shù)向用戶展示搜索結(jié)果。與現(xiàn)有的新聞搜索方法相比,能夠基于新聞的屬性提高搜索結(jié)果的準確性。
圖3為本申請實施例公開的又一種新聞搜索方法,與圖1所示的方法相比,主要區(qū)別在于,增加了對打分后的候選項進行進一步的質(zhì)量評判的步驟,以進一步提高搜索結(jié)果的準確性。
圖3所示的方法包括以下步驟:
s301:依據(jù)搜索關(guān)鍵詞,得到與關(guān)鍵詞相關(guān)的候選項。
本實施例中,使用相似性算法,計算關(guān)鍵詞與各個新聞的相似性分數(shù),將相似性分數(shù)滿足閾值的新聞作為候選項。
具體的,使用式(5)計算關(guān)鍵詞與任意一個新聞的相似性分數(shù):
score(q,d)=
querynorm(q)*coord(q,d)*∑t∈q(tf(t∈q)*idf(t))*norm(t,d))(5)
式(5)中,q為搜索關(guān)鍵詞,d為新聞,t為搜索關(guān)鍵詞經(jīng)過分詞后的詞集合。
querynorm(q)表示搜索關(guān)鍵詞的標準化因素。
coord表示共現(xiàn)因子,是對出現(xiàn)多個搜索詞的衡量。coord(q,d)表示搜索關(guān)鍵詞和新聞中共同出現(xiàn)的詞的個數(shù)與搜索關(guān)鍵詞中的詞的個數(shù)之比。例如,query由三個詞組成,新聞中出現(xiàn)的詞有兩個,那么該新聞的共現(xiàn)因子=2/3。
tf為詞頻,表示一個詞出現(xiàn)的頻率。idf為逆文檔頻率,表示一個詞是否不常見。在本實施例中,用新聞的關(guān)鍵詞衡量新聞是否與用戶的搜索關(guān)鍵詞相關(guān),因此,需要一個重要性調(diào)整系數(shù)來衡量一個詞是不是關(guān)鍵詞,一般來說,如果某個詞比較少見(idf較大),但是它在這篇文章中多次出現(xiàn)(tf較大),那么它很可能就反映了這篇文章的特性,正是所需要的關(guān)鍵詞。知道了"詞頻"(tf)和"逆文檔頻率"(idf)以后,將這兩個值相乘,就得到了一個詞的tf-idf值。某個詞對文章的重要性越高,它的tf-idf值就越大。所以,在計算出新聞中的全部詞語的tf-idf值后,排在最前面的幾個詞,就是這篇新聞的關(guān)鍵詞。
式(5)將用戶搜索關(guān)鍵詞q進行分詞,利用∑t∈q(tf(t∈q)*idf(t))計算q里的詞在新聞中的tf-idf值,該值越大,表明這篇新聞在內(nèi)容上與q越相關(guān)。
norm由兩部分組成,分別是長度標準化(lengthnorm)和搜索關(guān)鍵詞標準化(querynorm),即norm=lengthnorm+querynorm,lengthnorm會衡量短field的匹配,給出更高的權(quán)重。比如,如果搜索詞在題目title中,那它比在內(nèi)容content中更相關(guān),得分更高。querynorm雖然不直接與文檔相關(guān)度相關(guān),但在對query類型的組合時,可以對query進行衡量。norm(t,d)的具體計算方式可以參見現(xiàn)有技術(shù),這里不再贅述。
s302:依據(jù)新聞的屬性,對候選項打分(屬性分),并按照分數(shù)排列候選項,得到第一次排序結(jié)果。具體實現(xiàn)方式可以參見s102,這里不再贅述。
s303:按照各個候選項的質(zhì)量,對第一排序結(jié)果進行重排序,得到第二次排序結(jié)果。
本實施例中,質(zhì)量評分規(guī)則如下:
(1)是否為長文?是為1,不是為0。
(2)是否分段?是為1,不是為0。
(3)分段的段數(shù)是否小于等于5段?是為1,不是為0。
(4)是否有圖片?是為1,不是為0。
(5)圖片的張數(shù)是否小于等于5張?是為1,不是為0。
(6)標題長度是否在10到20個字符之間?是為1,不是為0。
基于上述規(guī)則,新聞重排序的打分公式為:
申請人在研究的過程中發(fā)現(xiàn),一篇優(yōu)質(zhì)的新聞,應(yīng)該滿足六個方面,首先是長文,并且有著較好的分段,一般不會超過五段,也會有合適的配圖,但是配圖不宜過多,最多不超過五張,同時新聞標題不會太長,一般在10到20個字符之間,因此,本發(fā)明將這六個方面進行量化,對新聞固有的質(zhì)量進行打分,最高為1分,最低為0分,并將該質(zhì)量因子與s302得到的分數(shù)相乘,調(diào)整排序結(jié)果,進一步提取出高質(zhì)量的新聞,將其推送至搜索結(jié)果的前列,最終的得分公式為:
scorefinal=score*scorererank(7)
按照式(7)對第一次排序結(jié)果進行重排序,得到第二次排序結(jié)果。
s304:按照第二次排序結(jié)果展示各個候選項。
圖3所示的方法,除了依據(jù)新聞的屬性對新聞進行打分之外,還基于新聞的內(nèi)容,對新聞的質(zhì)量進行打分,最后依據(jù)兩次打分對新聞進行排序展示,因此能夠進一步提高搜索結(jié)果的準確性。
圖4為本申請實施例公開的一種新聞搜索裝置,包括:候選項確定模塊、打分模塊和展示模塊,可選的,還包括重排序模塊。
其中,候選項確定模塊用于依據(jù)搜索關(guān)鍵詞,得到與所述搜索關(guān)鍵詞相關(guān)的候選項。打分模塊用于依據(jù)新聞的屬性,確定所述候選項的屬性分,并依據(jù)所述屬性分對所述候選項排序,所述新聞的屬性包括新聞的點擊曝光率和新聞的實效周期。展示模塊用于按照排序結(jié)果,展示搜索結(jié)果。重排序模塊用于在所述展示模塊按照排序結(jié)果,展示搜索結(jié)果之前,依據(jù)質(zhì)量參數(shù),確定所述排序結(jié)果中的各個候選項的質(zhì)量分,所述質(zhì)量參數(shù)包括新聞的長度、段落數(shù)、包括的圖片以及標題的長度;將所述候選項中的任意一項的質(zhì)量分與該項的屬性分相乘,得到總分;依據(jù)所述候選項中每一項的總分,對所述候選項進行重排序,得到更新的排序結(jié)果。
以上各個模塊的功能的具體實現(xiàn)方式可以參見上述方法實施例,這里不再贅述。
圖4所示的裝置,能夠提高新聞搜索結(jié)果的準確性。
本申請實施例方法所述的功能如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算設(shè)備可讀取存儲介質(zhì)中?;谶@樣的理解,本申請實施例對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算設(shè)備(可以是個人計算機,服務(wù)器,移動計算設(shè)備或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:u盤、移動硬盤、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其它實施例的不同之處,各個實施例之間相同或相似部分互相參見即可。
對所公開的實施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本申請。對這些實施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本申請的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本申請將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。