可拓展的用戶意圖挖掘方法及其系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理及用戶交互技術領域,尤其涉及一種可拓展的用戶意圖挖掘 方法及其系統(tǒng)。
【背景技術】
[0002] 如今,遍及全世界,每秒都能生成成百上萬個搜索結果的搜索引擎已經(jīng)成為現(xiàn)代 人生活中不可或缺的一部分。隨著網(wǎng)絡信息的爆炸性增長,網(wǎng)絡搜索服務的關鍵之處在于 通過簡短的搜索條件來盡可能的匹配用戶偏好從而更好的理解用戶的需求。所述搜索引擎 在人類生活中扮演著重要的角色,并且通過向用戶提供信息極大的促進了日常生活的便 利。
[0003] 但是,對于計算機而言,理解人類的搜索意圖是很困難的。由于缺乏在某些場景中 的個人信息以及當尋找相類似用戶群時所需要的大量計算,個性化的搜索是一個很有挑戰(zhàn) 性的問題。
[0004] 不同的人均有不同的愛好。即使是對于一個用戶,其愛好也有可能隨時間而改變。 因此,能夠滿足個性化搜索需求和適應用戶意圖隨時間的變化的在線搜索服務是非常必要 的。因此,特定的用戶信息(例如,用戶文檔、用戶搜索歷史、在先觀看的內容等等)可以作為 定義用戶意圖的標識。
[0005] 本發(fā)明公開的方法及其系統(tǒng)用于解決現(xiàn)有技術中的一個或者多個問題。
[0006] 發(fā)明概述
[0007] 本發(fā)明的一方面公開了一種可拓展的用戶意圖挖掘方法。所述方法包括:在公共 搜索日志數(shù)據(jù)集的若干搜索日志中檢測第一命名實體并且基于所述第一命名實體,生成與 所述第一命名實體對應的若干搜索日志的第一特征。還包括在所述第一特征上應用所述多 模型的限制玻爾茲曼機從而訓練公共多模型限制玻爾茲曼機,生成公共搜索項目的表示; 獲取用戶的搜索項目,判斷是否存在用戶的搜索歷史。當不存在用戶的搜索歷史時,使用所 述公共多模型限制玻爾茲曼機來預測用戶意圖,并且當存在用戶的搜索歷史時,在所述搜 索歷史上應用所述公共多模型限制玻爾茲曼機從而訓練個人多模型限制玻爾茲曼機,并使 用所述個人多模型限制玻爾茲曼機來預測用戶意圖。
[0008] 本發(fā)明另一方面公開了可拓展的用戶意圖挖掘系統(tǒng)。所述系統(tǒng)包括:第一命名實 體檢測單元,用于在公共搜索日志數(shù)據(jù)集的若干搜索日志中檢測第一命名實體;第一特征 生成單元,用于基于所述第一命名實體,生成與所述第一命名實體對應的搜索日志的第一 特征;公共多模型限制玻爾茲曼機學習單元,用于在所述第一特征中應用多模型的限制玻 爾茲曼機從而生成公共搜索項目的表示;個人模型學習模塊,用于在用戶的搜索歷史中應 用多模型的限制玻爾茲曼機從而訓練個人多模型限制玻爾茲曼機;以及意圖挖掘模塊,用 于使用所述公共多模型限制玻爾茲曼機和個人多模型玻爾茲曼機預測用戶意圖。
[0009] 本發(fā)明的再一方面公開了一個存儲有用于執(zhí)行可拓展的用戶意圖挖掘的操作的 計算機可執(zhí)行指令的計算機可讀存儲模塊。所述計算機可執(zhí)行指令包括:在公共搜索日志 數(shù)據(jù)集的搜索日志中檢測第一命名實體;基于所述第一命名實體,生成與所述第一命名實 體對應的若干搜索日志的第一特征;在所述第一特征上應用所述多模型的限制玻爾茲曼機 從而訓練公共模型限制玻爾茲曼機;生成公共搜索項目的表示;獲取用戶的搜索項目;判斷 是否存在用戶的搜索歷史;當不存在用戶的搜索歷史時,使用所述公共多模型限制玻爾茲 曼機來預測用戶意圖,并且當存在用戶的搜索歷史時,在所述搜索歷史上應用所述公共多 模型限制玻爾茲曼機從而訓練個人多模型限制玻爾茲曼機,并使用所述個人多模型限制玻 爾茲曼機來預測用戶意圖。
[0010]本發(fā)明的其他方面,所屬技術領域技術人員能夠依據(jù)本發(fā)明的權利要求書,說明 書,以及附圖有效實施并充分公開。
[0011] 附圖簡要說明
[0012] 圖1為本發(fā)明【具體實施方式】的工作環(huán)境示意圖。
[0013] 圖2本發(fā)明【具體實施方式】的計算系統(tǒng)的結構框圖。
[0014] 圖3為本發(fā)明【具體實施方式】的可拓展的多模型學習系統(tǒng)的結構框圖。
[0015] 圖4為本發(fā)明【具體實施方式】的可拓展的用戶意圖挖掘方法的流程圖。
[0016] 圖5為本發(fā)明【具體實施方式】的限制玻爾茲曼機的示意圖。
[0017]圖6為本發(fā)明【具體實施方式】的使用URL數(shù)據(jù)訓練限制玻爾茲曼機的示意圖。
[0018] 圖7為本發(fā)明【具體實施方式】的使用搜索文本數(shù)據(jù)訓練限制玻爾茲曼機的示意圖。
[0019] 圖8為本發(fā)明【具體實施方式】的用于多類型輸入數(shù)據(jù)的多模型學習系統(tǒng)的示意圖。
[0020] 圖9為本發(fā)明【具體實施方式】的多模型限制玻爾茲曼機預測用戶意圖的示意圖。
[0021 ]圖10為本發(fā)明【具體實施方式】的用戶意圖挖掘的搜索項目處理程序的示意圖。
[0022] 詳細說明
[0023]附圖中展示的部分將被引用以具體說明,闡述本發(fā)明具體技術實施方案。說明書 中引用的數(shù)字代表附圖的相應部分。
[0024] 圖1為本發(fā)明【具體實施方式】中的工作環(huán)境100。如圖1所示,所述工作環(huán)境100包括: 終端102,服務器106,用戶108,網(wǎng)絡系統(tǒng)110。
[0025] 終端102(也被稱作終端設備)可以是任何合適的,具有運算能力的用戶終端,例如 個人電腦(PC)、工作站、服務器計算機、掌上電腦(平板電腦)、智能手機、移動電話或者其他 用戶端運算設備。在本發(fā)明的具體實施例中,終端102可以是一個移動終端,例如智能手機、 掌上電腦、移動電話等等。終端102可以在任何合適的運算平臺上運行。用戶108還可以使用 終端102連接網(wǎng)絡系統(tǒng)110并向服務器106發(fā)出請求。所述終端102可以從任何合適的資源獲 取網(wǎng)站,例如本地存儲設備、服務器供應商提供的無線或者有線網(wǎng)絡設備或者因特網(wǎng)。
[0026] 具體的,服務器106具體指一個或者多個用于提供特定網(wǎng)絡服務功能(例如搜索服 務)的服務計算機。所述服務器106可以包括一個或者多個處理器從而平行運行計算機程 序。所述服務器106還可以存儲終端獲取的網(wǎng)頁,并且每個網(wǎng)頁有對應唯一的網(wǎng)址。所述唯 一對應的網(wǎng)址也被稱作URL。終端102及服務器106可以通過網(wǎng)絡系統(tǒng)110,例如有線網(wǎng)絡、電 話網(wǎng)絡和/或衛(wèi)星網(wǎng)絡等等建立連接。盡管圖1僅展示了一個終端102和一個服務器106,本 發(fā)明還可以包括任何數(shù)量的終端及服務器。
[0027] 終端102和/或服務器106可以在任何合適的電子計算平臺上運行。圖2為本發(fā)明具 體實施例的用于運行終端102和/或服務器106的計算系統(tǒng)的結構框圖。
[0028]如圖2所示,所述計算系統(tǒng)200包括處理器202,存儲器204,播放器206,通信模塊 208,數(shù)據(jù)庫210以及外圍設備212。所述計算系統(tǒng)可以減省上述設備,也可以添加一些其他 類型的設備,而不限于上述設備。
[0029] 所述處理器202可以是任何合適的處理器或處理器組。具體的,所述處理器202為 能夠進行多線程處理的多核心處理器。存儲器204可以是任何合適的存儲設備,例如R0M, RAM,閃存或者大容量存儲器,例如CD-ROM,硬盤等。存儲器204用于存儲為進行各種數(shù)據(jù)處 理而預設的計算機運行程序。
[0030] 所述外圍設備212具體包括:各種類型的傳感器以及輸入,輸出設備,例如鍵盤,鼠 標。通信模塊208具體包括:各類網(wǎng)絡交互設備,用于在設備間通過網(wǎng)絡系統(tǒng)建立連接。數(shù)據(jù) 庫210具體包括一到多個用于存儲不同數(shù)據(jù)以及對數(shù)據(jù)進行一些處理,例如搜索數(shù)據(jù)的數(shù) 據(jù)庫。
[0031] 基于來自于用戶108的至少一個搜索條件,終端102向服務器106發(fā)出請求,并且服 務器106回復接收到的請求。圖3為本發(fā)明具體實施例的可拓展的多模型學習系統(tǒng)的結構框 圖。
[0032]如圖3所示,所述可拓展的多模型學習系統(tǒng)300可以包括公共模型學習模塊30、個 人模型學習模塊32、以及一個用戶意圖挖掘模塊34。還可以增添或者減省一些特定的模塊。 [0033]所述公共模型學習模塊30可以用于執(zhí)行公共模型學習程序。所述程序從大量的搜 索日志數(shù)據(jù)中學習一般的表示(例如公共數(shù)據(jù)的表示)并且學習公共模型的參數(shù)。所述公共 模型學習程序可以僅運行一次。
[0034]所述公共模型學習模塊30可以包括搜索日志數(shù)據(jù)集301、第一命名實體檢測單元 303、第一特征生成單元305以及公共多模型的限制玻爾茲曼機(RBM)學習單元307。還可以 增添或者減省一些特定的組成部分。所述公共模型學習模塊30的組成部分可以在硬件、軟 件或者軟件硬件結合的方式中執(zhí)行。
[0035]所述搜索日志數(shù)據(jù)集301可以用于存儲網(wǎng)站的搜索引擎搜索日志(例如Google搜 索、必應搜索、雅虎搜索等等)與其他的資源(例如推特、博客)相比,所述搜索引擎搜索日志 能夠更直觀的反映用戶的興趣及需求。所述搜索日志可以包括用戶會話、用戶ID、搜索、搜 索項目、每個搜索的一系列URL、域名、URL排序等等。
[0036]所述第一命名實體檢測單元303可以用于在搜索日志數(shù)據(jù)集301的大量搜索日志 中檢測命名實體。在使用搜索引擎時,用戶通常傾向于使用簡單、直接的單詞來描述用戶的 需求。一般的,用戶通常使用命名實體來描述自己的需求。在數(shù)據(jù)挖掘領域,命名實體表示 一個能夠清晰的將一個項目從具有其他相類似屬性的項目中區(qū)分出來的短語。命名實體的 例子包括:位置、人的姓名、地址以及產(chǎn)品名稱等等。不同的用戶可能會搜索一個命名實體 的不同方面,但很難告知搜索引擎用戶的真正搜索