一種相關反饋間關系網(wǎng)絡的構建與應用方法
【專利摘要】本發(fā)明提供一種相關反饋間關系網(wǎng)絡的構建與應用方法,包括以下步驟。S1、根據(jù)用戶的查詢點擊行為,分析用戶在認知理解過程中信息的個性化邏輯序列關系,即用戶邏輯關系。S2、度量用戶點擊脈絡的方向一致性,利用基于語言模型的向量聚類法將具有同一方向的脈絡聚為一類,形成黑洞形態(tài)的用戶邏輯群。S3、根據(jù)所述黑洞,進行用戶檢索系統(tǒng)中的用戶查詢推薦以及檢索結果排序推薦。
【專利說明】一種相關反饋間關系網(wǎng)絡的構建與應用方法
【技術領域】
[0001]本發(fā)明屬于信息檢索領域,具體涉及一種個性化信息檢索過程中相關反饋間關系網(wǎng)絡的構建與應用方法。
【背景技術】
[0002]搜索引擎是指根據(jù)一定的策略自動從互聯(lián)網(wǎng)上抓取資源,對信息進行組織和處理后,提供給人們進行在線查詢的服務系統(tǒng)。它將用戶從海量豐富的信息中解放出來,幫助用戶快速、準確、便捷地獲取有價值的信息,極大了提升了人們的工作效率。
[0003]搜索引擎從誕生到現(xiàn)在,經(jīng)歷了四個發(fā)展過程。第一代搜索引擎主要是基于人工來編輯分類目錄,代表的站點有haol23等導航網(wǎng)站,或者新浪、搜狐等門戶網(wǎng)站。第二代搜索引擎采用了一些簡單的信息檢索模型,如布爾模型、概率模型或者向量空間模型等,根據(jù)用戶輸入的查詢,返回相關性高的信息。這種模式的搜索引擎體已經(jīng)是現(xiàn)代搜索引擎的雛形,代表有Alta Vista。第三代搜索引擎主要采用鏈接技術算法,不但要考慮搜索結果與用戶查詢的相似程度,同時要考慮該網(wǎng)頁的質量及重要程度。此類搜索引擎以谷歌和百度為代表。第四代搜索引擎,主要以用戶為核心,根據(jù)用戶發(fā)起查詢請求時的環(huán)境(時間、場景)以及用戶背景之間的差異,返回滿足不同檢索意圖的結果,即個性化搜索。目前,個性化搜索的研究及應用還處在起步階段,尤其是移動互聯(lián)網(wǎng)興起之后,衍生出大量的移動場景下的多元化的個性化搜索需求,亟需一種更有效的個性化搜索策略。
[0004]而傳統(tǒng)的信息檢索在度量查詢與偽反饋相關性的過程中,主要側重衡量文字層面的語義或語用一致性,并將這一關系應用于檢索性能的提高,尤其是個性化信息檢索方法,通過用戶行為收集相關于查詢的用戶意圖描述信息,并在此基礎上對查詢和排序進行修正或革新,提高滿足用戶查詢意圖的信息支持力。然而,這類方法在檢測和應用諸如“下館子”和“KTV飚歌”這類本源無關、語言重疊性稀疏、語義一致性低下的信息關系時,卻顯得無能為力。
[0005]鑒于此,本發(fā)明提供一種相關反饋間關系網(wǎng)絡的構建與應用方法,以解決上述問題。
【發(fā)明內容】
[0006]本發(fā)明提供一種相關反饋間關系網(wǎng)絡的構建與應用方法,包括以下步驟:
[0007]S1、根據(jù)用戶的查詢點擊行為,分析用戶在認知理解過程中信息的個性化邏輯序列關系,即用戶邏輯關系;
[0008]S2、度量用戶點擊脈絡的方向一致性,利用基于語言模型的向量聚類法將具有同一方向的脈絡聚為一類,形成黑洞形態(tài)的用戶邏輯群;
[0009]S3、根據(jù)所述黑洞,進行用戶檢索系統(tǒng)中的用戶查詢推薦以及檢索結果排序推薦。
[0010]優(yōu)選的,在步驟SI中,所述用戶的查詢點擊行為,指用戶點擊查看的檢索結果、對應的詳情頁面以及所述點擊行為之間的時序關系,所述用戶的點擊結果即相關反饋。[0011]優(yōu)選的,步驟S2中黑洞形態(tài)的用戶邏輯群中,所述黑洞為:若任一查詢均存在一個終極目標和多個起點,每個起點至終極目標的過程存在至少一次點擊,則黑洞的中心為終極目標,黑洞的半徑為終極目標與距離所述終極目標最遠的起點之間的距離,且每個起點和黑洞中心之間的系列點擊稱為一個吸引路徑。
[0012]優(yōu)選的,在步驟S2中,所述黑洞形態(tài)的用戶邏輯群的形成過程為:將每個點擊脈絡作為一個聚類,并將其描述為點擊方向的序列向量,即點擊向量;借助語言模型計算每一對聚類的相似度,采用自底向上的凝聚式劃分方法,將近似度最高的一對聚類合并為一類,并度量新類中每個點擊向量中每個方向的生成概率,輔助后續(xù)聚類時的相似度計算;持續(xù)向上聚類,直到所有聚類匯聚于一點,或所有聚類的相似度都低于某一閾值。
[0013]優(yōu)選的,在步驟S3中,所述檢索結果排序推薦包括全路徑推薦和局部路徑推薦,所述局部路徑推薦又包括集中式局部推薦和散點式局部推薦。
[0014]優(yōu)選的,所述全路徑推薦是將黑洞中特定路徑上所有點擊對應的相關反饋全部予以推薦,高位排列并按照點擊順序進行排序;局部路徑推薦是將黑洞中特定路徑上局部點擊片段對應的相關反饋給予推薦,高位排列并按點擊順序予以排序。
[0015]優(yōu)選的,當被推薦用戶使用的查詢項與被推薦路徑起點對應的查詢項具有一致性或近似性時,實施全路徑推薦。
[0016]優(yōu)選的,當用戶的初始點擊序列與黑洞中某一路徑的連續(xù)點擊片段有著高度一致性時,實施集中式局部推薦,且所述集中式局部推薦將一致性片段之后的點擊按序整體推薦。
[0017]優(yōu)選的,當兩條或多條認知路徑之間具有較多相同點擊反饋且點擊并不連續(xù)時,實施散點式局部推薦。
[0018]根據(jù)本發(fā)明提供的相關反饋間關系網(wǎng)絡的構建與應用方法,通過檢測并分析用戶點擊行為形成的用戶邏輯關系,用以度量用戶點擊脈絡的方向一致性,可以在本源無關、語言重疊性稀疏且語義一致性低下的信息之間建立關聯(lián)。同時將具有同一方向的脈絡聚為一類,形成黑洞形態(tài)的用戶邏輯群,進行用戶檢索系統(tǒng)中的用戶查詢推薦以及檢索結果排序推薦,更好的滿足個性化的用戶意圖需求。
【專利附圖】
【附圖說明】
[0019]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0020]圖1是本發(fā)明較佳實施例提供的相關反饋間關系網(wǎng)絡的構建與應用方法流程圖;
[0021]圖2是本發(fā)明較佳實施例提供的相關反饋奇異關系樣例示意圖;
[0022]圖3是本發(fā)明較佳實施例提供的點擊黑洞形態(tài)樣例示意圖;
[0023]圖4是本發(fā)明較佳實施例提供的點擊空間樣例示意圖;
[0024]圖5是本發(fā)明較佳實施例提供的黑洞形態(tài)的映射樣例示意圖;
[0025]圖6是本發(fā)明較佳實施例提供的點擊序列的方向分解樣例示意圖;
[0026]圖7是本發(fā)明較佳實施例提供的現(xiàn)有檢索系統(tǒng)的查詢推薦樣例示意圖;[0027]圖8是本發(fā)明較佳實施例提供的用戶邏輯的復雜度對照樣例示意圖;
[0028]圖9是本發(fā)明較佳實施例提供的集中式推薦樣例示意圖;
[0029]圖10是本發(fā)明較佳實施例提供的多路徑集中式推薦樣例示意圖;
[0030]圖11是本發(fā)明較佳實施例提供的散點漸進式推薦樣例示意圖;
[0031]圖12是本發(fā)明較佳實施例提供的“黑洞”的路徑劃分樣例示意圖;
[0032]圖13是本發(fā)明較佳實施例提供的漸進式迭代推薦過程樣例示意圖。
【具體實施方式】
[0033]下文中將參考附圖并結合實施例來詳細說明本發(fā)明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。
[0034]圖1是本發(fā)明較佳實施例提供的相關反饋間關系網(wǎng)絡的構建與應用方法流程圖。如圖1所示,本發(fā)明較佳實施例提供的相關反饋間關系網(wǎng)絡的構建與應用方法包括步驟SI ?S3。
[0035]步驟S1:根據(jù)用戶的查詢點擊行為,分析用戶在認知理解過程中信息的個性化邏輯序列關系,即用戶邏輯關系。
[0036]為更好地理解本發(fā)明,首先對相關反饋間關系作出說明?,F(xiàn)有的相關反饋(包括顯式和隱式相關反饋),通常用于對查詢的擴展和修正,用戶意圖與偏好的挖掘,以及排序學習等。然而,現(xiàn)有搜索引擎給予的檢索結果列表(即偽相關反饋列表)中,各個結果之間并沒有被指定任何聯(lián)系。值得說明的是,搜索引擎既沒有在度量相關性的過程中使用相關反饋間的聯(lián)系,也沒有在展示檢索結果的交互界面上呈現(xiàn)這一聯(lián)系。使得現(xiàn)有的檢索結果列表形似“八爪章魚”,“章魚頭”比擬查詢(query),“八只爪子”比擬枚舉式的檢索結果,各個“爪子”都與“章魚頭”有著某種聯(lián)系,如文本上的詞匹配或更深層的基于語言模型的關聯(lián)性。但信息之間的聯(lián)系是一種必然存在的客觀規(guī)律,比如,特定用戶在點擊和瀏覽了第I項檢索結果后,又對當前列表中的第3項進行了點擊與瀏覽,那么第I項與第3項(即來自用戶的兩個相關反饋)之間理應存在某種關系,可以考慮對這一關系進行深入的挖掘和分析。
[0037]相關反饋之間的聯(lián)系包括例如主題一致性關系、屬性一致性關系、語義一致性關系和通用的相關性:主題一致性適合面向新聞文本的檢索,比如文本“世貿大廈的倒塌”和“恐怖分子劫持飛機撞大樓”都可以歸屬于“911恐怖襲擊事件”這一主題的檢索;屬性一致性適合面向產品的垂直搜索,比如針對“2400萬像素”照相機的檢索;語義一致性則較為萬能,現(xiàn)有檢索領域的分類和聚類都可以借助語義一致性精細劃分信息類別,但語義一致性給定的關系過于收斂,不適合搜索引擎中的知識擴展性;相比而言,相關性則過于發(fā)散,只要字面的一致性達到特定量級,即可說明信息間存在相關性,比如“觀音山”可以和“范冰冰”建立聯(lián)系。
[0038]但上述各關系并不能有效地刻畫相關反饋之間的關系,圖2是本發(fā)明較佳實施例提供的相關反饋奇異關系樣例示意圖。如圖2所示,給定查詢“怎么戒煙”,就很難用上述關系解釋某一用戶在點擊偽反饋a) “怎么戒煙7天去煙癮,21天徹底戒煙”之后又點擊b) “如何讓老公戒酒”。
[0039]通過大量類似上例的樣本可以得出:信息檢索系統(tǒng)依賴語義或語用層面的一致性、近似性或相關性,挖掘和有序排列了關聯(lián)于查詢的信息。但用戶在判定和觸發(fā)特定檢索結果時不一定遵循檢索系統(tǒng)的邏輯。換言之,用戶對于哪些檢索結果更為貼心,以及用戶為滿足自身知識獲取意圖而采用的檢索結果學習次序,都有著自己獨特的一套看法。由此,相關反饋(比如點擊行為觸發(fā)的檢索結果)并非一定反映了檢索結果與查詢之間字面上的關系,而是更多地反映了用戶認知和理解檢索結果的一種過程。那么,研究相關反饋的關系就是在嘗試解釋用戶認知和理解事物過程中所遵循的邏輯或思維脈絡。相應地,相關反饋之間的關系可表示為一種認知理解過程中信息的個性化邏輯序列關系,簡稱用戶邏輯關系。
[0040]本發(fā)明中,相關反饋間的用戶邏輯關系強調的是用戶對知識間關聯(lián)性的獨到看法。換言之,這一關系是用戶根據(jù)自身理解、判斷和推理建立起的狹義信息關系,而非一定遵循語言學規(guī)律或事物本源聯(lián)系的廣義信息關系。究其主要特征而言,用戶邏輯關系首先是一種個性化關系,反映的是用戶個例的認知特點。比如,用戶張三先認識李四,又認識王五,那么樣本序列李四和王五即具備了張三的用戶邏輯關系;相對地,用戶楊二先認識王五,又認識李四,那么樣本序列王五和李四即具備了楊二的用戶邏輯關系,在樣本李四與王五的認知關系上,用戶張三與楊二都有著自己的一套邏輯。其次,用戶邏輯關系是一種創(chuàng)造性關系,可以在本身無關的信息間制造關系。比如,樣本“下館子”和“KTV飚歌”之間本無關系,但組織派對的用戶經(jīng)常會在兩者之間建立“下了館子再去KTV飚歌”的關系。最后,用戶邏輯關系還是一種強調序的關系,即序列關系。比如,老師教孩子們先認識加法,再認識乘法,最后認識分配律?;谏鲜鎏攸c,用戶邏輯關系實質上是一種用戶極大便利自身理解事物的知識采集序列。
[0041]如上所述,用戶的查詢點擊行為,是指用戶點擊查看的檢索結果、對應的詳情頁面以及所述點擊行為之間的時序關系,所述用戶的點擊結果即相關反饋。
[0042]步驟S2:度量用戶點擊脈絡的方向一致性,利用基于語言模型的向量聚類法將具有同一方向的脈絡聚為一類,形成黑洞形態(tài)的用戶邏輯群。
[0043]如步驟SI所述,相關反饋之間可以具備一種用戶邏輯關系。接下來介紹如何將用戶邏輯關系應用于檢索系統(tǒng)。例如認知序列中的樣本“李四”與“王五”本可以是毫無關系的兩個人,但因為用戶“張三”先認識了 “李四”后認識了 “王五”,那么,相對用戶“張三”而言,樣本“李四”與“王五”就具備了認知序列的關系。借助大規(guī)模統(tǒng)計數(shù)據(jù)發(fā)現(xiàn),絕大部分用戶都是先認識“李四”后認識“王五”,兩者之間的聯(lián)系存在必然性。比如,人們先認識“李登輝”后認識“陳水扁”可以解釋為認知的時序關系;人們先認識“日本”后認識“廣島長崎”可以解釋為認知的全局與局部聯(lián)系;人們先認識“貂嬋”后認識“自己老婆”可以解釋為屬性優(yōu)劣或知名度高低的聯(lián)系。由此,可以借助大量的檢索樣本數(shù)據(jù)建立具有一致或近似認知過程的用戶邏輯群,每一個群由多個用戶邏輯形成,表述了一種趨向同一認知中心的信息關系。
[0044]即便如此,仍然很難用統(tǒng)一標準定義每一個用戶邏輯群表述了什么信息關系,關系類別也五花八門。比如上文中的樣例,一個群描述時序關系(“李登輝”與“陳水扁”),另一個群描述屬性關系(“貂嬋”和“老婆”)。其中,時序關系需要時間表達式的識別和比對,屬性關系則要依賴本體論(ontology),兩者正常的處理和應用過程都有著顯著的區(qū)別。事實上,如果將這樣一種理論投入到針對大規(guī)模數(shù)據(jù)進行處理的信息檢索領域,將有著很多回避特定關系定義與識別的處理和應用方式。就這一點而言,傳統(tǒng)的HITs算法就是最好的例證,HITs并不專注于任何一個網(wǎng)頁內容的分析、定義和使用,而是全局地考慮各個網(wǎng)頁之間的鏈接關系,并借助Authority和Hub值建立一套排序機制。換言之,HITs的所有行為都在網(wǎng)頁之外的空間進行,它對網(wǎng)頁內在的內容毫不關心。這為本發(fā)明的設計提供了很好的借鑒作用。
[0045]由此,本發(fā)明引入點擊黑洞的定義,它是用戶邏輯群的另一稱謂。用戶點擊行為是觸發(fā)相關反饋的主要手段之一,因此,同一查詢過程中的系列點擊行為可以在實際應用中建立相關反饋的關系,反映用戶的認知和學習過程。單一用戶提供的系列點擊可以建立單一的用戶邏輯關系,多用戶的點擊行為就可以形成用戶邏輯群。將基于用戶點擊行為構建的用戶邏輯群稱為點擊黑洞,不僅僅為了凸顯相關反饋的來源為點擊行為,更多地是為了反映用戶邏輯群的一種形態(tài):黑洞形態(tài)。
[0046]由此,在黑洞形態(tài)的用戶邏輯群中,所述黑洞為:若任一查詢均存在一個終極目標和多個起點,每個起點至終極目標的過程存在至少一次點擊,則黑洞的中心為終極目標,黑洞的半徑為終極目標與距離所述終極目標最遠的起點之間的距離,且每個起點和黑洞中心之間的系列點擊稱為一個吸引路徑。
[0047]本發(fā)明中,點擊黑洞是基于用戶點擊行為構建的用戶邏輯群的視覺仿真。任何一種查詢都存在一個終極目標和多個查詢起點,終極目標指的是最能夠滿足查詢意圖的信息,起點指的是用戶輸入的初始查詢項,而終極目標和每一個起點之間都有著特定用戶在探尋、學習和理解知識過程中的系列信息觸發(fā)行為(即點擊行為),每一個行為指向一個反映用戶認知狀態(tài)的相關反饋。簡而言之,點擊黑洞就是具有同一知識獲取意圖的不同用戶,使用不同初始查詢項,通過系列點擊行為提供的認知趨勢趨向一致的相關反饋邏輯群。
[0048]事實上,點擊黑洞的中心是不存在的,即最滿足用戶查詢意圖的信息并不存在。點擊黑洞只能記錄趨向于終極目標的系列認知趨勢,而不能給出終極目標,也恰恰迎合了黑洞的性質。此外,由于不同用戶可以存在同一查詢意圖,而其知識背景、語言能力、交流習慣等卻往往各不相同,因此,不同用戶的查詢語言往往不同,其正確性和精確性也不同,因此呈現(xiàn)多起點現(xiàn)象(具有相同起點的則歸為一類用戶)。其中,無論從語言使用和搭配的正確性上、或語義的精確性上,必定存在距離“點擊黑洞”中心最遠的查詢項。由此,黑洞的邊界即是由這一距離最遠的查詢項所構建的等距圓弧(如果在三維空間,則為球面,更高維空間則為超球面)。
[0049]圖3是本發(fā)明較佳實施例提供的點擊黑洞形態(tài)樣例示意圖。如圖3所示,在點擊黑洞中,任意一條由起點至終點間的路徑(Path)記錄了特定用戶同一次查詢中的不同點擊(如圖3中的實心圓點),每一個點擊指向一項相關反饋,整個路徑反應了特定用戶的認知脈絡,即對應用戶的用戶邏輯。其中,每條路徑上的最終點并不是終極目標,僅僅是系列點擊行為中的最后一次點擊,指向檢索過程中的最后一項相關反饋,具有趨向終極目標的屬性。
[0050]于此,所述黑洞形態(tài)具備如下性質:黑洞中的起點不能超出黑洞邊界;黑洞中的用戶邏輯路徑并不一定全部局限于黑洞邊界之內;黑洞中的每個用戶邏輯路徑都趨向同一終極目標,但始終達不到這一目標。其中,“黑洞中的用戶邏輯路徑并不一定全部局限于黑洞邊界之內”這一性質對用戶邏輯路徑的限制較松,只強調其整體趨勢趨向黑洞中心,這可以解釋為用戶在認知過程中的錯誤和干擾。
[0051]由此,利用大規(guī)模檢索數(shù)據(jù)集合,可以構建一種完全由用戶點擊行為構成的點擊空間,其中包含各種不同用戶的系列點擊脈絡,并根據(jù)用戶邏輯的目標一致性或近似性,形成不同點擊黑洞。圖4是本發(fā)明較佳實施例提供的點擊空間樣例示意圖。如圖4所示,最小的點擊黑洞k是由單一用戶的點擊路徑構成的用戶邏輯。
[0052]下面將介紹點擊黑洞的構建方法。點擊黑洞的基本組成包含一個未知的中心,多個離散的起點(即查詢項)和系列點擊形成的用戶邏輯脈絡。由于無法準確獲取和描述查詢的終極目標,黑洞的機器自動構建將非常困難。為此,本發(fā)明采用同向法建立黑洞,同向法只考慮系列點擊的趨勢具有近似一致的方向性,而忽略黑洞中心以及起點的位置。其基本思想如下,假設存在一種方向,其終點存在一個“黑洞”中心,那么所有具有這一方向的點擊脈絡將指向這一中心,又因不同的點擊脈絡往往源自不同的起點,每個起點至黑洞的方向各不相同,那么由各個起點開始的點擊脈絡將形成多角度的內聚性,即黑洞。上述黑洞的構建可以借助兩種空間予以解釋,一種是語義空間,該空間記錄信息的語義位置。另一種是點擊空間,該空間中僅僅記錄點擊序列的方向。
[0053]語義空間的一般形成方法是將所有已知的字、詞或短語分別建立特定的維度(語言的高維空間),使得任何文本都可以在這一高維空間中定位特定位置。借助傳統(tǒng)的向量空間模型法(VSM)可以度量空間中任意兩點(即兩個文本信息)之間的近似度,借以描述文本間的語義相關性。然而,語義無關的文本之間也可以存在用戶邏輯關系,比如“下館子吃大餐”和“去KTV通宵飚歌”之間毫無語義聯(lián)系,但對“準備組團徹夜狂歡的青年男女”而言,兩者之間有著密不可分的聯(lián)系,而這一聯(lián)系借助上述語義空間很難予以解釋和度量。另外,VSM這一模型在度量空間中所有兩點關系時,完全相對于同一中心,即空間的原點,這從理論上存在難以解釋的疑問,即如果空間的中心描述了一種所有維度上的語言現(xiàn)象皆為零的情況,那么相對于這一中心的所有兩點匹配表達了什么含義呢?是否表明了人們對任意兩點關系匹配的認知完全在毫無先驗知識和語言邏輯關系理解的層面下進行呢?即僅僅是字面關系,毫無認知理解的邏輯關系。由此,現(xiàn)有方法在利用語義空間方面尚不透徹。
[0054]本發(fā)明即旨在建立語義空間中的多種核心,語言的匹配和理解也相對于不同核心予以進行,無論是方向性或距離性,都不能僅僅相對于同一起點。然而,在語義空間中檢測這種新的核心(即黑洞中心)很難直接解決。因此,本發(fā)明借助另一種點擊空間,輔助黑洞中心的檢測。點擊空間僅僅考慮系列點擊的方向性,而不考慮點擊對應的信息內容。點擊脈絡具有“序”的屬性,即系列點擊的序列,方向趨近一致的點擊脈絡稱為平行點擊序列,趨向同一認知目標。如果這類點擊序列的確存在,那么,將這類序列映射至語義空間中時,將形成收斂于某一中心的黑洞。圖5是本發(fā)明較佳實施例提供的黑洞形態(tài)的映射樣例示意圖。如圖5所示,點擊序列{a,b}、{c, d}和{e,f}具有平行關系,趨向同一目標,將其映射至語義空間中時,盡管點擊對應的文本內容在空間中的位置無法繼續(xù)保證上述平行關系,但所有點擊序列趨向同一核心的性質將隱含地繼續(xù)保存,如圖5中由不同起點開始,點擊脈絡趨向內聚的圖示。
[0055]如上所述,黑洞建立的核心問題是如何度量點擊脈絡的方向一致性,并將具有同一方向的脈絡聚為一類。由此,所述黑洞形態(tài)的用戶邏輯群的形成過程為:將每個點擊脈絡作為一個聚類,并將其描述為點擊方向的序列向量,即點擊向量;借助語言模型計算每一對聚類的相似度,采用自底向上的凝聚式劃分方法,將近似度最高的一對聚類合并為一類,并度量新類中每個點擊向量中每個方向的生成概率,輔助后續(xù)聚類時的相似度計算;持續(xù)向上聚類,直到所有聚類匯聚于一點,或所有聚類的相似度都低于某一閾值。[0056]圖6是本發(fā)明較佳實施例提供的點擊序列的方向分解樣例示意圖。如圖6所示,給定一條點擊脈絡{a, b, c},首先將這一序列分解并形成點擊向量{ (a, b)、(b, C)、(a, c) },這一向量記錄了點擊序列中每一種自前而后的點擊方向。其中方向(a, c)不是直接方向,而是具有中間媒介的間接方向。
[0057]本實施例中,基于語言模型的相似度度量方法如下所示。假設給定如下兩個聚類:
[0058]
【權利要求】
1.一種相關反饋間關系網(wǎng)絡的構建與應用方法,其特征在于,包括以下步驟: 51、根據(jù)用戶的查詢點擊行為,分析用戶在認知理解過程中信息的個性化邏輯序列關系,即用戶邏輯關系; 52、度量用戶點擊脈絡的方向一致性,利用基于語言模型的向量聚類法將具有同一方向的脈絡聚為一類,形成黑洞形態(tài)的用戶邏輯群; 53、根據(jù)所述黑洞,進行用戶檢索系統(tǒng)中的用戶查詢推薦以及檢索結果排序推薦。
2.根據(jù)權利要求1所述的方法,其特征在于,在步驟SI中,所述用戶的查詢點擊行為,指用戶點擊查看的檢索結果、對應的詳情頁面以及所述點擊行為之間的時序關系,所述用戶的點擊結果即相關反饋。
3.根據(jù)權利要求1所述的方法,其特征在于,步驟S2中黑洞形態(tài)的用戶邏輯群中,所述黑洞為:若任一查詢均存在一個終極目標和多個起點,每個起點至終極目標的過程存在至少一次點擊,則黑洞的中心為終極目標,黑洞的半徑為終極目標與距離所述終極目標最遠的起點之間的距離,且每個起點和黑洞中心之間的系列點擊稱為一個吸引路徑。
4.根據(jù)權利要求1所述的方法,其特征在于,在步驟S2中,所述黑洞形態(tài)的用戶邏輯群的形成過程為:將每個點擊脈絡作為一個聚類,并將其描述為點擊方向的序列向量,即點擊向量;借助語言模型計算每一對聚類的相似度,采用自底向上的凝聚式劃分方法,將近似度最高的一對聚類合并為一類,并度量新類中每個點擊向量中每個方向的生成概率,輔助后續(xù)聚類時的相似度計算;持續(xù)向上聚類,直到所有聚類匯聚于一點,或所有聚類的相似度都低于某一閾值。
5.根據(jù)權利要求1所述的方法,其特征在于,在步驟S3中,所述檢索結果排序推薦包括全路徑推薦和局部路徑推薦,所述局部路徑推薦又包括集中式局部推薦和散點式局部推薦。
6.根據(jù)權利要求5所述的方法,其特征在于:所述全路徑推薦是將黑洞中特定路徑上所有點擊對應的相關反饋全部予以推薦,高位排列并按照點擊順序進行排序;局部路徑推薦是將黑洞中特定路徑上局部點擊片段對應的相關反饋給予推薦,高位排列并按點擊順序予以排序。
7.根據(jù)權利要求5或6所述的方法,其特征在于,當被推薦用戶使用的查詢項與被推薦路徑起點對應的查詢項具有一致性或近似性時,實施全路徑推薦。
8.根據(jù)權利要求5所述的方法,其特征在于,當用戶的初始點擊序列與黑洞中某一路徑的連續(xù)點擊片段有著高度一致性時,實施集中式局部推薦,且所述集中式局部推薦將一致性片段之后的點擊按序整體推薦。
9.根據(jù)權利要求5所述的方法,其特征在于,當兩條或多條認知路徑之間具有較多相同點擊反饋且點擊并不連續(xù)時,實施散點式局部推薦。
【文檔編號】G06F17/30GK103942302SQ201410153662
【公開日】2014年7月23日 申請日期:2014年4月16日 優(yōu)先權日:2014年4月16日
【發(fā)明者】洪宇, 康楊楊, 朱巧明, 王劍 申請人:蘇州大學