本發(fā)明涉及信息檢索技術(shù),尤其涉及一種基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索方法及系統(tǒng)。
背景技術(shù):
移動(dòng)互聯(lián)網(wǎng)的發(fā)展,推動(dòng)了智能手機(jī)、平板電腦等終端設(shè)備在功能上的不斷提升;智能設(shè)備制造成本的不斷降低,也促使人們擁有更多不同類型的智能設(shè)備,如智能手機(jī)、電腦、平板、智能手表等。隨著網(wǎng)絡(luò)接入的方式愈加方便、快捷,用戶和不同設(shè)備的交互活動(dòng)也愈加頻繁,互聯(lián)網(wǎng)用戶在生活中會(huì)經(jīng)常在不同設(shè)備間進(jìn)行切換使用。
特別是用戶使用不同的設(shè)備搜索網(wǎng)絡(luò)信息時(shí),由于網(wǎng)絡(luò)、設(shè)備尺寸、設(shè)備功能、外界環(huán)境等不同因素的影響,會(huì)經(jīng)常導(dǎo)致搜索活動(dòng)的中斷,而轉(zhuǎn)移到其他設(shè)備上繼續(xù)搜索活動(dòng)(例如用戶家中使用電腦搜索旅游出行的信息后,在室外時(shí)由于不記得先前的搜索結(jié)果而使用手機(jī)繼續(xù)搜索相關(guān)信息;又如用戶在圖書館中使用手機(jī)搜索論文等學(xué)術(shù)信息,但由于預(yù)覽、下載受限,回到家中后使用臺(tái)式電腦繼續(xù)搜索)。如今用戶在這種不同設(shè)備上的跨設(shè)備搜索已經(jīng)十分普遍,特別用戶在滿足其一些較為復(fù)雜的、需要耗費(fèi)時(shí)間較多的信息需求時(shí),需要進(jìn)行多次搜索,其搜索活動(dòng)往往跨越了不同的搜索會(huì)話,也會(huì)跨越不用的終端設(shè)備。
在跨設(shè)備搜索中,用戶在第一個(gè)設(shè)備上搜索完成后,需要在第二個(gè)設(shè)備上繼續(xù)之前的搜索任務(wù),針對(duì)用戶在發(fā)生設(shè)備轉(zhuǎn)移后的搜索活動(dòng)提供支持(如幫助用戶回憶、提供相關(guān)的查詢式或搜索歷史),能夠給用戶提供更好的搜索服務(wù)和體驗(yàn),提升用戶的搜索效率,推進(jìn)信息檢索技術(shù)的發(fā)展。
當(dāng)前針對(duì)用戶進(jìn)行跨設(shè)備搜索和跨設(shè)備交互的技術(shù)主要是在用戶使用完第一個(gè)設(shè)備后,當(dāng)用戶開始使用第二個(gè)設(shè)備時(shí),在用戶界面通過訪問個(gè)人中心、訪問瀏覽器收藏夾等功能,按照時(shí)間的順序,為其重復(fù)上一個(gè)設(shè)備上的搜索歷史。這些技術(shù)主要是幫助用戶重新訪問先前的網(wǎng)頁、內(nèi)容,如提供跨設(shè)備前訪問的網(wǎng)頁列表、訪問網(wǎng)頁的縮略圖,或在同一款瀏覽器中,登陸賬戶后通過收藏夾、書簽等同步搜索活動(dòng),還有一些瀏覽器推出了通過個(gè)人中心進(jìn)行用戶數(shù)據(jù)同步的功能來輔助用戶的跨設(shè)備搜索。然而這些技術(shù)都引入了過多的用戶交互,可用性不高,用戶交互操作的復(fù)雜性和負(fù)擔(dān)較高,尤其在用戶界面中沒有主動(dòng)為用戶提供跨設(shè)備搜索的支持,并且只適合簡(jiǎn)單的跨會(huì)話的一些網(wǎng)絡(luò)搜索活動(dòng)。
另外,目前支持跨設(shè)備搜索的技術(shù)、系統(tǒng)都忽視了一個(gè)問題,即用戶發(fā)生設(shè)備轉(zhuǎn)移后,除了繼續(xù)之前的搜索活動(dòng)外,還需要進(jìn)一步進(jìn)行搜索。并且目前的單純重復(fù)用戶歷史記錄的技術(shù)和方法,無法判斷用戶先前的搜索活動(dòng)是否有必要再次為用戶重復(fù);用戶由于設(shè)備功能、網(wǎng)絡(luò)環(huán)境、外界環(huán)境等因素導(dǎo)致的跨設(shè)備轉(zhuǎn)移后,經(jīng)常需要進(jìn)一步進(jìn)行搜索,那么基于用戶先前的搜索活動(dòng)和交互歷史,對(duì)用戶發(fā)生跨設(shè)備轉(zhuǎn)移后再次搜索時(shí)的搜索結(jié)果排序十分重要,應(yīng)該結(jié)合先前會(huì)話中的用戶數(shù)據(jù),對(duì)跨設(shè)備后的搜索結(jié)果進(jìn)行重新排序,避免用戶重復(fù)的搜索,提升用戶的搜索效率,改善用戶的搜索體驗(yàn)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題在于針對(duì)現(xiàn)有技術(shù)中的缺陷,提供一種基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索方法及系統(tǒng)。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索方法及系統(tǒng),
基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索系統(tǒng),包括:
數(shù)據(jù)收集模塊,用于記錄并收集用戶在第一設(shè)備上進(jìn)行網(wǎng)絡(luò)搜索時(shí)的行為數(shù)據(jù);所述行為數(shù)據(jù)包括用戶在網(wǎng)頁上的停留時(shí)長(zhǎng);所述第一設(shè)備為用戶上次使用的搜索設(shè)備;
歷史數(shù)據(jù)處理模塊,用于根據(jù)數(shù)據(jù)收集模塊的數(shù)據(jù)在第二設(shè)備上為用戶顯示推薦的查詢式和推薦的網(wǎng)頁;所述第二設(shè)備為用戶正在使用的搜索設(shè)備;
搜索數(shù)據(jù)處理模塊,用于在第二設(shè)備上對(duì)用戶搜索產(chǎn)生的搜索結(jié)果進(jìn)行基于數(shù)據(jù)融合、結(jié)合設(shè)備信息的重新排序。
按上述方案,所述用戶行為數(shù)據(jù)還包括用戶名、時(shí)間戳、會(huì)話的編號(hào)、使用的設(shè)備類型、訪問的頁面類型、訪問頁面的url地址、訪問頁面的html源代碼、訪問該頁面時(shí)使用的查詢式、訪問頁面時(shí)發(fā)生的事件、用戶訪問本系統(tǒng)時(shí)的用戶ip地址,以及用戶在移動(dòng)端設(shè)備上訪問本系統(tǒng)時(shí)上的屏幕觸控?cái)?shù)據(jù);所述訪問頁面時(shí)發(fā)生的事件包括激活頁面、關(guān)閉頁面和跳轉(zhuǎn)頁面;所述屏幕觸控?cái)?shù)據(jù)包括觸控方向、觸控位置、觸控速度和觸控角度。
按上述方案,所述歷史數(shù)據(jù)處理模塊,還為用戶提供第一設(shè)備中搜索歷史中的查詢式和訪問網(wǎng)頁。
按上述方案,所述歷史數(shù)據(jù)處理模塊為用戶顯示推薦的查詢式和推薦的網(wǎng)頁的具體方法如下:
根據(jù)下述公式計(jì)算搜索歷史中的查詢式和網(wǎng)頁的計(jì)算值,根據(jù)計(jì)算值從高到低對(duì)用戶搜索歷史中的查詢式和網(wǎng)頁中進(jìn)行排序,并根據(jù)推薦的數(shù)量顯示推薦的查詢式和推薦的網(wǎng)頁:
其中,dwell表示用戶在該網(wǎng)頁頁面上的停留時(shí)長(zhǎng),λ為表示時(shí)間重要性參數(shù),λ的一般取值為0.1;δt表示文檔獲取的新穎性,δt=本次搜索時(shí)間-上次用戶訪問該文檔的時(shí)間;wdevice為設(shè)備類型重要性參數(shù),wdevice的參數(shù)值優(yōu)選地選取0.8推薦效果更;若用戶跨設(shè)備后設(shè)備種類不同,sd值為0;若用戶跨設(shè)備后設(shè)備相同,sd值為1;所述設(shè)備種類包括移動(dòng)設(shè)備和非移動(dòng)設(shè)備。
按上述方案,所述搜索數(shù)據(jù)處理模塊為用戶提供重新排序的搜索結(jié)果的方法如下:
對(duì)搜索引擎的初始搜索結(jié)果進(jìn)行初始排序計(jì)算值的計(jì)算,
其中,rel為搜索引擎結(jié)果的初始排序計(jì)算值,其中rank位各文檔在搜索結(jié)果中的排名(如搜索到的文檔排名為1,rank的值為1;搜索到的文檔排名為2,rank的值為2)。
計(jì)算基于數(shù)據(jù)融合的跨設(shè)備搜索后搜索結(jié)果中文檔排序的計(jì)算值;
scorefinal=wrel*rel-wreaccess*scorereaccess
其中,scorereaccess為系統(tǒng)首頁中基于數(shù)據(jù)融合的推薦查詢式和推薦網(wǎng)頁的計(jì)算值;scorefinal為基于數(shù)據(jù)融合的跨設(shè)備搜索后搜索結(jié)果中文檔排序的計(jì)算值,wrel為衡文檔相關(guān)性重要程度參數(shù),值取0.9,wreaccess是衡量scorereaccess在整個(gè)排序中的權(quán)重的參數(shù),是通過scorereaccess中的設(shè)備類型、停留時(shí)間等計(jì)算出來的;一般時(shí)候,當(dāng)參數(shù)值取0.5時(shí),生成的搜索結(jié)果排序效果最佳,因此wrel的參數(shù)值優(yōu)選地選取0.9,wreaccess的參數(shù)值優(yōu)選地選取0.5。
根據(jù)scorefinal的計(jì)算值為用戶生成跨設(shè)備后的重新排序過的搜索結(jié)果。
本發(fā)明提出的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索方法中包含了兩個(gè)算法,這兩個(gè)算法既能夠滿足用戶在跨設(shè)備轉(zhuǎn)以后,對(duì)第一個(gè)設(shè)備上發(fā)生的搜索活動(dòng)繼續(xù)進(jìn)行的需求,又滿足了用戶進(jìn)一步進(jìn)行搜索的需求。
基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索方法,包括以下步驟:
1)記錄并收集用戶在第一設(shè)備上進(jìn)行網(wǎng)絡(luò)搜索時(shí)的行為數(shù)據(jù);所述行為數(shù)據(jù)包括用戶在網(wǎng)頁上的停留時(shí)長(zhǎng);所述第一設(shè)備為用戶上次使用的搜索設(shè)備;
2)當(dāng)用戶使用第二設(shè)備時(shí),為用戶在提供基于來自第一設(shè)備數(shù)據(jù)融合的推薦網(wǎng)頁和推薦查詢式,還根據(jù)用戶的需求提供在第一設(shè)備中搜索歷史中的查詢式和訪問網(wǎng)頁;
所述為用戶提供推薦的查詢式和推薦的網(wǎng)頁的具體方法如下:
根據(jù)下述公式計(jì)算搜索歷史中的查詢式和網(wǎng)頁的計(jì)算值,根據(jù)計(jì)算值從高到低對(duì)用戶搜索歷史中的查詢式和網(wǎng)頁中進(jìn)行排序,并根據(jù)推薦的數(shù)量顯示推薦的查詢式和推薦的網(wǎng)頁:
其中,dwell表示用戶在該網(wǎng)頁頁面上的停留時(shí)長(zhǎng),λ為表示時(shí)間重要性參數(shù),λ的一般取值為0.1;δt表示文檔獲取的新穎性,δt=本次搜索時(shí)間-上次用戶訪問該文檔的時(shí)間;wdevice為設(shè)備類型重要性參數(shù),wdevice的參數(shù)值優(yōu)選地選取0.8推薦效果更;若用戶跨設(shè)備后設(shè)備種類不同,sd值為0;若用戶跨設(shè)備后設(shè)備相同,sd值為1;所述設(shè)備種類包括移動(dòng)設(shè)備和非移動(dòng)設(shè)備;
2)用戶在第二設(shè)備中輸入查詢式,開始新的搜索;
3)完成用戶搜索后,在搜索結(jié)果頁面中提供基于不同設(shè)備數(shù)據(jù)融合的搜索結(jié)果重新排序,提供排序后的搜索結(jié)果;
所述搜索數(shù)據(jù)處理模塊為用戶提供重新排序的搜索結(jié)果的方法如下:
對(duì)搜索引擎的初始搜索結(jié)果進(jìn)行初始排序計(jì)算值的計(jì)算,
其中,rel為搜索引擎結(jié)果的初始排序計(jì)算值,其中rank位各文檔在搜索結(jié)果中的排名(如搜索到的文檔排名為1,rank的值為1;搜索到的文檔排名為2,rank的值為2)。
計(jì)算基于數(shù)據(jù)融合的跨設(shè)備搜索后搜索結(jié)果中文檔排序的計(jì)算值;
scorefinal=wrel*rel-wreaccess*scorereaccess
其中,scorereaccess為系統(tǒng)首頁中基于數(shù)據(jù)融合的推薦查詢式和推薦網(wǎng)頁的計(jì)算值;scorefinal為基于數(shù)據(jù)融合的跨設(shè)備搜索后搜索結(jié)果中文檔排序的計(jì)算值,wrel為衡文檔相關(guān)性重要程度參數(shù),值取0.9,wreaccess是衡量scorereaccess在整個(gè)排序中的權(quán)重的參數(shù),是通過scorereaccess中的設(shè)備類型、停留時(shí)間等計(jì)算出來的;一般時(shí)候,當(dāng)參數(shù)值取0.5時(shí),生成的搜索結(jié)果排序效果最佳,因此wrel的參數(shù)值優(yōu)選地選取0.9,wreaccess的參數(shù)值優(yōu)選地選取0.5。
根據(jù)scorefinal的計(jì)算值為用戶生成跨設(shè)備后的重新排序過的搜索結(jié)果。
按上述方案,所述步驟1)中推薦的查詢式和推薦的網(wǎng)頁數(shù)量為設(shè)定值。
按上述方案,所述步驟1)中推薦的查詢式和推薦的網(wǎng)頁為一一對(duì)應(yīng)的。
本發(fā)明產(chǎn)生的有益效果是:支持用戶在不同設(shè)備間的跨設(shè)備網(wǎng)絡(luò)信息搜索,解決了用戶在跨設(shè)備后重復(fù)搜索、恢復(fù)搜索,以及搜索更多相關(guān)信息的問題;結(jié)合用戶的跨設(shè)備情境,基于算法的優(yōu)化,將原始搜索結(jié)果基于跨設(shè)備情境信息的融合,進(jìn)行跨設(shè)備后搜索結(jié)果的重新排序,方便用戶在不同設(shè)備之間進(jìn)行無縫搜索,能夠提高用戶的搜索效率,改善用戶的搜索體驗(yàn)。
附圖說明
下面將結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明,附圖中:
圖1是采用本發(fā)明的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索方法的一個(gè)實(shí)施例的流程圖;
圖2是采用本發(fā)明的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索系統(tǒng)的一個(gè)實(shí)施例的流程圖;
圖3是本發(fā)明的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索系統(tǒng)的一個(gè)具體實(shí)施例的示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
跨設(shè)備搜索的一個(gè)重要特征是跨設(shè)備后的搜索會(huì)話和跨設(shè)備前的搜索會(huì)話在內(nèi)容、搜索需求上的連續(xù)性,特別是由于搜索任務(wù)的復(fù)雜性高,用戶可能無法完全記住之前的搜索過程,因此本發(fā)明首先針對(duì)用戶跨設(shè)備后的搜索會(huì)話提供輔助,以支持任務(wù)的持續(xù)。
本發(fā)明方法主要是通過記錄用戶在跨設(shè)備前的設(shè)備上的用戶數(shù)據(jù),并通過本發(fā)明提出的“支持跨設(shè)備搜索時(shí)信息重新獲取利用算法”(算法1),優(yōu)選與跨設(shè)備前的搜索活動(dòng)高度相關(guān)的查詢式和訪問過的網(wǎng)頁,在本發(fā)明中提出的系統(tǒng)首頁中為用戶顯示。顯示的高度相關(guān)的查詢式和訪問過的網(wǎng)頁是通過算法的計(jì)算,將之前搜索活動(dòng)的用戶交互數(shù)據(jù)納入到算法的計(jì)算中,為用戶生成5個(gè)推薦的查詢式和5個(gè)推薦的網(wǎng)頁。這里推薦的數(shù)量可以在后臺(tái)進(jìn)行調(diào)整。同時(shí)在首頁中為用戶顯示搜索歷史按鈕,用戶可以點(diǎn)擊查看自己所有提交過的查詢式歷史和訪問網(wǎng)頁的歷史。
本發(fā)明的第二個(gè)目的在于支持用戶在跨設(shè)備搜索后,進(jìn)行信息的探索式搜索。即用戶在跨設(shè)備前已經(jīng)初步對(duì)搜索任務(wù)有了解,在跨設(shè)備后,需要進(jìn)一步搜索。這時(shí),用戶需要的并不只是需要先前的搜索歷史、訪問歷史,更需要在第二個(gè)設(shè)備上提交了查詢式后,搜索到更多高度相關(guān)的信息。
基于此目的,本發(fā)明提出了一種“支持跨設(shè)備搜索時(shí)搜索結(jié)果重新排序算法”(算法2),該方法是結(jié)合用戶先前的搜索活動(dòng),當(dāng)用戶發(fā)生設(shè)備轉(zhuǎn)移并再次搜索時(shí),對(duì)搜索引擎原始的搜索結(jié)果進(jìn)行重新排序,既能夠滿足用戶在跨設(shè)備搜索過程對(duì)先前搜索活動(dòng)的恢復(fù),又能夠繼續(xù)探索新的信息,滿足用戶復(fù)雜的信息需求。
該方法主要是結(jié)合用戶在跨設(shè)備搜索之前,在第一個(gè)設(shè)備上進(jìn)行搜索時(shí)的查詢內(nèi)容,搜索結(jié)果頁面上的操作記錄,第一個(gè)設(shè)備的信息,搜索結(jié)果點(diǎn)擊頁面上的鍵鼠和觸控交互數(shù)據(jù),以及相關(guān)網(wǎng)頁上的停留時(shí)長(zhǎng)數(shù)據(jù),將這些數(shù)據(jù)納入到“支持跨設(shè)備搜索時(shí)搜索結(jié)果重新排序算法”的計(jì)算中,對(duì)跨設(shè)備后搜索結(jié)果進(jìn)行文檔重排序,實(shí)現(xiàn)搜索結(jié)果排序的優(yōu)化。
基于上述方法,本發(fā)明提出了支持跨設(shè)備網(wǎng)絡(luò)信息搜索的種基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索方法及系統(tǒng),支持用戶在多設(shè)備環(huán)境下的跨設(shè)備搜索無縫連接問題。
基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索系統(tǒng),包括:
數(shù)據(jù)收集模塊,用于記錄并收集用戶在第一設(shè)備上進(jìn)行網(wǎng)絡(luò)搜索時(shí)的行為數(shù)據(jù);所述行為數(shù)據(jù)包括用戶在網(wǎng)頁上的停留時(shí)長(zhǎng);所述第一設(shè)備為用戶上次使用的搜索設(shè)備;
歷史數(shù)據(jù)處理模塊,用于根據(jù)數(shù)據(jù)收集模塊的數(shù)據(jù)在第二設(shè)備上為用戶顯示推薦的查詢式和推薦的網(wǎng)頁;所述第二設(shè)備為用戶正在使用的搜索設(shè)備;
搜索數(shù)據(jù)處理模塊,用于在第二設(shè)備上對(duì)用戶搜索產(chǎn)生的搜索結(jié)果進(jìn)行基于數(shù)據(jù)融合、結(jié)合設(shè)備信息的重新排序;
數(shù)據(jù)收集模塊中的用戶行為數(shù)據(jù)還包括用戶名、時(shí)間戳、會(huì)話的編號(hào)、使用的設(shè)備類型、訪問的頁面類型、訪問頁面的url地址、訪問頁面的html源代碼、訪問該頁面時(shí)使用的查詢式、訪問頁面時(shí)發(fā)生的事件、用戶訪問本系統(tǒng)時(shí)的用戶ip地址,以及用戶在移動(dòng)端設(shè)備上訪問本系統(tǒng)時(shí)上的屏幕觸控?cái)?shù)據(jù);所述訪問頁面時(shí)發(fā)生的事件包括激活頁面、關(guān)閉頁面和跳轉(zhuǎn)頁面;所述屏幕觸控?cái)?shù)據(jù)包括觸控方向、觸控位置、觸控速度和觸控角度。
歷史數(shù)據(jù)處理模塊為用戶顯示推薦的查詢式和推薦的網(wǎng)頁的具體方法如下:
根據(jù)下述公式計(jì)算搜索歷史中的查詢式和網(wǎng)頁的計(jì)算值,根據(jù)計(jì)算值從高到低對(duì)用戶搜索歷史中的查詢式和網(wǎng)頁中進(jìn)行排序,并根據(jù)推薦的數(shù)量顯示推薦的查詢式和推薦的網(wǎng)頁:
其中,dwell表示用戶在該網(wǎng)頁頁面上的停留時(shí)長(zhǎng),λ為表示時(shí)間重要性參數(shù),λ的一般取值為0.1;δt表示文檔獲取的新穎性,δt=本次搜索時(shí)間-上次用戶訪問該文檔的時(shí)間;wdevice為設(shè)備類型重要性參數(shù),wdevice的參數(shù)值優(yōu)選地選取0.8推薦效果更;若用戶跨設(shè)備后設(shè)備種類不同,sd值為0;若用戶跨設(shè)備后設(shè)備相同,sd值為1;所述設(shè)備種類包括移動(dòng)設(shè)備和非移動(dòng)設(shè)備。
搜索數(shù)據(jù)處理模塊為用戶提供重新排序的搜索結(jié)果的方法如下:
對(duì)搜索引擎的初始搜索結(jié)果進(jìn)行初始排序計(jì)算值的計(jì)算,
其中,rel為搜索引擎結(jié)果的初始排序計(jì)算值,其中rank位各文檔在搜索結(jié)果中的排名(如搜索到的文檔排名為1,rank的值為1;搜索到的文檔排名為2,rank的值為2)。
計(jì)算基于數(shù)據(jù)融合的跨設(shè)備搜索后搜索結(jié)果中文檔排序的計(jì)算值;
scorefinal=wrel*rel-wreaccess*scorereaccess
其中,scorereaccess為系統(tǒng)首頁中基于數(shù)據(jù)融合的推薦查詢式和推薦網(wǎng)頁的計(jì)算值;scorefinal為基于數(shù)據(jù)融合的跨設(shè)備搜索后搜索結(jié)果中文檔排序的計(jì)算值,wrel為衡文檔相關(guān)性重要程度參數(shù),值取0.9,wreaccess是衡量scorereaccess在整個(gè)排序中的權(quán)重的參數(shù),是通過scorereaccess中的設(shè)備類型、停留時(shí)間等計(jì)算出來的;一般時(shí)候,當(dāng)參數(shù)值取0.5時(shí),生成的搜索結(jié)果排序效果最佳,因此wrel的參數(shù)值優(yōu)選地選取0.9,wreaccess的參數(shù)值優(yōu)選地選取0.5。
根據(jù)scorefinal的計(jì)算值為用戶生成跨設(shè)備后的重新排序過的搜索結(jié)果。
本發(fā)明提出的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索方法中包含了兩個(gè)算法,這兩個(gè)算法既能夠滿足用戶在跨設(shè)備轉(zhuǎn)以后,對(duì)第一個(gè)設(shè)備上發(fā)生的搜索活動(dòng)繼續(xù)進(jìn)行的需求,又滿足了用戶進(jìn)一步進(jìn)行搜索的需求。
基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索方法,包括以下步驟:
1)記錄并收集用戶在第一設(shè)備上進(jìn)行網(wǎng)絡(luò)搜索時(shí)的行為數(shù)據(jù);所述行為數(shù)據(jù)包括用戶在網(wǎng)頁上的停留時(shí)長(zhǎng);所述第一設(shè)備為用戶上次使用的搜索設(shè)備;
2)當(dāng)用戶使用第二設(shè)備時(shí),為用戶在提供基于來自第一設(shè)備數(shù)據(jù)融合的推薦網(wǎng)頁和推薦查詢式,還根據(jù)用戶的需求提供在第一設(shè)備中搜索歷史中的查詢式和訪問網(wǎng)頁;
所述為用戶提供推薦的查詢式和推薦的網(wǎng)頁的具體方法如下:
根據(jù)下述公式計(jì)算搜索歷史中的查詢式和網(wǎng)頁的計(jì)算值,根據(jù)計(jì)算值從高到低對(duì)用戶搜索歷史中的查詢式和網(wǎng)頁中進(jìn)行排序,并根據(jù)推薦的數(shù)量顯示推薦的查詢式和推薦的網(wǎng)頁:
其中,dwell表示用戶在該網(wǎng)頁頁面上的停留時(shí)長(zhǎng),λ為表示時(shí)間重要性參數(shù),λ的一般取值為0.1;δt表示文檔獲取的新穎性,δt=本次搜索時(shí)間-上次用戶訪問該文檔的時(shí)間;wdevice為設(shè)備類型重要性參數(shù),wdevice的參數(shù)值優(yōu)選地選取0.8推薦效果更;若用戶跨設(shè)備后設(shè)備種類不同,sd值為0;若用戶跨設(shè)備后設(shè)備相同,sd值為1;所述設(shè)備種類包括移動(dòng)設(shè)備和非移動(dòng)設(shè)備。
2)用戶在第二設(shè)備中輸入查詢式,開始新的搜索;
3)完成用戶搜索后,在搜索結(jié)果頁面中提供基于不同設(shè)備數(shù)據(jù)融合的搜索結(jié)果重新排序,提供排序后的搜索結(jié)果;
所述搜索數(shù)據(jù)處理模塊為用戶提供重新排序的搜索結(jié)果的方法如下:
對(duì)搜索引擎的初始搜索結(jié)果進(jìn)行初始排序計(jì)算值的計(jì)算,
其中,rel為搜索引擎結(jié)果的初始排序計(jì)算值,其中rank位各文檔在搜索結(jié)果中的排名(如搜索到的文檔排名為1,rank的值為1;搜索到的文檔排名為2,rank的值為2)。
計(jì)算基于數(shù)據(jù)融合的跨設(shè)備搜索后搜索結(jié)果中文檔排序的計(jì)算值;
scorefinal=wrel*rel-wreaccess*scorereaccess
其中,scorereaccess為系統(tǒng)首頁中基于數(shù)據(jù)融合的推薦查詢式和推薦網(wǎng)頁的計(jì)算值;scorefinal為基于數(shù)據(jù)融合的跨設(shè)備搜索后搜索結(jié)果中文檔排序的計(jì)算值,wrel為衡文檔相關(guān)性重要程度參數(shù),值取0.9,wreaccess是衡量scorereaccess在整個(gè)排序中的權(quán)重的參數(shù),是通過scorereaccess中的設(shè)備類型、停留時(shí)間等計(jì)算出來的;一般時(shí)候,當(dāng)參數(shù)值取0.5時(shí),生成的搜索結(jié)果排序效果最佳,因此wrel的參數(shù)值優(yōu)選地選取0.9,wreaccess的參數(shù)值優(yōu)選地選取0.5。
根據(jù)scorefinal的計(jì)算值為用戶生成跨設(shè)備后的重新排序過的搜索結(jié)果。
其中步驟1)中推薦的查詢式和推薦的網(wǎng)頁數(shù)量為設(shè)定值,步驟1)中推薦的查詢式和推薦的網(wǎng)頁為一一對(duì)應(yīng)的。
下面闡述本發(fā)明方法與系統(tǒng)的使用的具體實(shí)施例。
本發(fā)明提供了一種支持互聯(lián)網(wǎng)用戶進(jìn)行跨設(shè)備網(wǎng)絡(luò)信息搜索的方法及系統(tǒng),圖1為根據(jù)本發(fā)明的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索方法的一個(gè)實(shí)施例的流程圖,主要包括:
步驟s101、用戶使用第一個(gè)設(shè)備,如臺(tái)式電腦、筆記本電腦、智能手機(jī)、平板電腦等,輸入查詢式進(jìn)行網(wǎng)絡(luò)搜索。
步驟s102、本發(fā)明提出的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索系統(tǒng),會(huì)記錄并收集用戶在第一個(gè)設(shè)備上進(jìn)行網(wǎng)絡(luò)搜索時(shí)的行為數(shù)據(jù)。這些數(shù)據(jù)都用來進(jìn)行“支持跨設(shè)備搜索時(shí)信息重新獲取利用算法”(算法1)和“支持跨設(shè)備搜索時(shí)搜索結(jié)果重新排序算法”(算法2)的計(jì)算。
步驟s103、用戶使用第二個(gè)設(shè)備,如臺(tái)式電腦、筆記本電腦、智能手機(jī)、平板電腦等,輸入查詢式進(jìn)行網(wǎng)絡(luò)搜索,這里用戶由于受到外界因素的影響而進(jìn)行了跨設(shè)備網(wǎng)絡(luò)信息搜索。
步驟s104、利用“支持跨設(shè)備搜索時(shí)信息重新獲取利用算法”(算法1)在系統(tǒng)首頁為用戶顯示推薦的查詢式和推薦的網(wǎng)頁,這里的算法在圖3中會(huì)詳細(xì)描述。
步驟s105、利用“支持跨設(shè)備搜索時(shí)搜索結(jié)果重新排序算法”(算法2)在用戶輸入查詢式后,對(duì)搜索結(jié)果進(jìn)行基于數(shù)據(jù)融合、結(jié)合設(shè)備信息的重新排序。
本發(fā)明實(shí)施例的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索方法和系統(tǒng),通過在用戶使用不同設(shè)備進(jìn)行網(wǎng)絡(luò)搜索時(shí)的數(shù)據(jù)進(jìn)行收集、分析、處理、融合,并在用戶發(fā)生跨設(shè)備轉(zhuǎn)移以后,提供基于來自不同設(shè)備數(shù)據(jù)融合后生成的推薦查詢式、推薦網(wǎng)頁,以及搜索結(jié)果的重新排序。
圖2詳細(xì)描述了根據(jù)本發(fā)明的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索系統(tǒng)的一個(gè)實(shí)施例的流程圖,主要包括:
步驟s201、用戶使用設(shè)備1(如智能手機(jī))登錄系統(tǒng),系統(tǒng)的地址是:crosssearch.whu.edu.cn,本發(fā)明提出的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索系統(tǒng)是通過用戶名,將用戶在不同設(shè)備上的數(shù)據(jù)進(jìn)行關(guān)聯(lián),產(chǎn)生推薦。
步驟s202、用戶通過用戶名和密碼登錄系統(tǒng)后,本發(fā)明提出的跨設(shè)備網(wǎng)絡(luò)信息搜索系統(tǒng)會(huì)為用戶在首頁上提供基于來自不同設(shè)備數(shù)據(jù)融合的推薦網(wǎng)頁、推薦查詢式,用戶還可以通過搜索歷史訪問先前搜索歷史中的查詢式和訪問網(wǎng)頁。
而當(dāng)新用戶首次訪問該系統(tǒng)時(shí),由于系統(tǒng)尚未記錄用戶的歷史日志,因此未提供推薦網(wǎng)頁和推薦查詢式。
步驟s203、用戶輸入查詢式,開始搜索。
步驟s204、用戶搜索后,系統(tǒng)會(huì)在搜索結(jié)果頁面中提供基于不同設(shè)備數(shù)據(jù)融合的搜索結(jié)果重新排序。排序的方法在下面的步驟會(huì)詳細(xì)介紹。
而當(dāng)新用戶首次訪問該系統(tǒng)時(shí),由于系統(tǒng)尚未記錄用戶的歷史日志,因此未提供基于數(shù)據(jù)融合的搜索結(jié)果重新排序。
步驟s205、用戶在第一個(gè)設(shè)備上搜索后,本發(fā)明提出的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索系統(tǒng)會(huì)在后臺(tái)中記錄用戶的行為數(shù)據(jù),針對(duì)用戶跨設(shè)備搜索后的推薦查詢式、推薦網(wǎng)頁,以及基于數(shù)據(jù)融合的搜索結(jié)果重新排序提供算法計(jì)算的相關(guān)依據(jù)。
在步驟s205中,本發(fā)明提出的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索系統(tǒng)的數(shù)據(jù)收集模塊會(huì)收集用戶在使用本系統(tǒng)時(shí)的各種用戶數(shù)據(jù),包括用戶名、時(shí)間戳、會(huì)話的編號(hào)、使用的設(shè)備類型、訪問的頁面類型、訪問頁面的url地址、訪問頁面的html源代碼、訪問該頁面時(shí)使用的查詢式、訪問頁面時(shí)發(fā)生的事件(如激活頁面、關(guān)閉頁面、跳轉(zhuǎn)頁面)、在網(wǎng)頁上的停留時(shí)長(zhǎng)、用戶訪問本系統(tǒng)時(shí)的用戶ip地址,以及用戶在移動(dòng)端設(shè)備上訪問本系統(tǒng)時(shí)(如智能手機(jī)、平板電腦)上的屏幕觸控?cái)?shù)據(jù)(包括觸控方向、觸控位置、觸控速度、觸控角度)等。
步驟s206、在收集完用戶數(shù)據(jù)后,本發(fā)明提出一種基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索方法,該方法重要包括了兩個(gè)算法,分別是“支持跨設(shè)備搜索時(shí)信息重新獲取利用算法”(算法1)和“支持跨設(shè)備搜索時(shí)搜索結(jié)果重新排序算法”(算法2)。這兩個(gè)算法的具體內(nèi)容會(huì)在下面的步驟中進(jìn)行詳細(xì)描述。
步驟s207、用戶在設(shè)備2(如筆記本電腦)上登陸系統(tǒng),這次搜索活動(dòng)發(fā)生在和設(shè)備1不同的設(shè)備上。
步驟s208、由于用戶之前已經(jīng)搜索過,因此本發(fā)明提出的系統(tǒng)在后臺(tái)的數(shù)據(jù)收集模塊中已積累了用戶的數(shù)據(jù),并通過系統(tǒng)算法模塊中的算法1和算法2生成了基于數(shù)據(jù)融合的相關(guān)推薦。
用戶登陸了本系統(tǒng)后,會(huì)在首頁中提供來自不同設(shè)備的推薦查詢式、推薦網(wǎng)頁、搜索歷史,推薦查詢式和推薦網(wǎng)頁是通過算法1計(jì)算的結(jié)果生成的推薦,并不是簡(jiǎn)單的搜索歷史重復(fù)。
步驟s209、用戶輸入查詢式后開始搜索。
步驟s210、用戶搜索后,生成搜索結(jié)果頁面。通過系統(tǒng)算法模塊中的算法2,結(jié)合用戶之前的搜索歷史,對(duì)搜索結(jié)果重新排序。
本發(fā)明實(shí)施例的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索方法和系統(tǒng),能夠幫助用戶恢復(fù)先前的搜索歷史,繼續(xù)較為復(fù)雜的搜索活動(dòng),并在搜索結(jié)果中為用戶提供個(gè)性化的推薦排序,提高用戶在跨設(shè)備搜索情境下的搜索效率和體驗(yàn)。
步驟s2060、這里詳細(xì)描述了“支持跨設(shè)備搜索時(shí)信息重新獲取利用算法”(算法1)的具體構(gòu)成。
在本算法中,scorereaccess為系統(tǒng)首頁中基于數(shù)據(jù)融合的推薦查詢式和推薦網(wǎng)頁的計(jì)算值,這個(gè)值是用來計(jì)算用戶跨設(shè)備搜索中的相關(guān)重要的查詢式和網(wǎng)頁,最終的計(jì)算值用來對(duì)用戶搜索歷史中的查詢式和網(wǎng)頁中進(jìn)行排序,在系統(tǒng)首頁中,為用戶優(yōu)選地提供。dwell表示用戶在一個(gè)網(wǎng)頁頁面上的停留時(shí)長(zhǎng)。參數(shù)λ=0.1。δt的值等于當(dāng)前時(shí)間減去訪問該頁面的時(shí)間。經(jīng)過前期的算法調(diào)試和用戶測(cè)評(píng),本發(fā)明發(fā)現(xiàn)wdevice的參數(shù)值取0.8時(shí)的推薦效果更佳,因此wdevice的參數(shù)值優(yōu)選地選取0.8。若用戶跨設(shè)備后設(shè)備不同(如從臺(tái)式電腦轉(zhuǎn)移到手機(jī)),sd值為0。若用戶跨設(shè)備后設(shè)備相同,sd值為1。
本發(fā)明實(shí)施例的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索方法中的算法1可以優(yōu)選地為用戶在發(fā)生跨設(shè)備轉(zhuǎn)移時(shí),為其提供更加符合其持續(xù)性搜索需求地查詢式和網(wǎng)頁,而不是簡(jiǎn)單地提供按照時(shí)間倒排的查詢式,更加符合用戶需求。
步驟s2061、這里詳細(xì)描述了“支持跨設(shè)備搜索時(shí)搜索結(jié)果重新排序算法”(算法2)的具體構(gòu)成。
本算法中,包含了幾個(gè)計(jì)算過程。首先本系統(tǒng)對(duì)搜索引擎的初始結(jié)果進(jìn)行排序,rel為搜索引擎結(jié)果的初始排序計(jì)算值,其中rank代表了不同文檔在搜索結(jié)果中的排名(如搜索到的文檔排名為1,rank的值為1;搜索到的文檔排名為2,rank的值為2)。scorereaccess為系統(tǒng)首頁中基于數(shù)據(jù)融合的推薦查詢式和推薦網(wǎng)頁的計(jì)算值(即算法1)。
scorefinal為基于數(shù)據(jù)融合的跨設(shè)備搜索后搜索結(jié)果中文檔排序的計(jì)算值,這個(gè)計(jì)算值最終用來為用戶生成跨設(shè)備后的重新排序過的搜索結(jié)果。經(jīng)過前期的算法調(diào)試和用戶測(cè)評(píng),本發(fā)明發(fā)現(xiàn),wrel的參數(shù)值取0.9,wreaccess的參數(shù)值取0.5時(shí),生成的搜索結(jié)果排序效果最佳,因此wrel的參數(shù)值優(yōu)選地選取0.9,wreaccess的參數(shù)值優(yōu)選地選取0.5。
本發(fā)明提出的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索方法中包含了兩個(gè)算法,這兩個(gè)算法既能夠滿足用戶在跨設(shè)備轉(zhuǎn)以后,對(duì)第一個(gè)設(shè)備上發(fā)生的搜索活動(dòng)繼續(xù)進(jìn)行的需求,又滿足了用戶進(jìn)一步進(jìn)行搜索的需求。
圖3詳細(xì)描述了根據(jù)本發(fā)明的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索系統(tǒng)的一個(gè)具體實(shí)施例的界面示意圖。
步驟s501、用戶在智能手機(jī)上,輸入查詢式“機(jī)器學(xué)習(xí)”搜索相關(guān)信息。在本發(fā)明提出的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索系統(tǒng)首頁為用戶顯示了“推薦搜索”、“推薦網(wǎng)頁”,這里的“推薦搜索”、“推薦網(wǎng)頁”是依據(jù)本發(fā)明提出的“支持跨設(shè)備搜索時(shí)信息重新獲取利用算法”(算法1)實(shí)現(xiàn)的,這里的“推薦搜索”、“推薦網(wǎng)頁”分別顯示5個(gè),這一數(shù)量可以在本發(fā)明提出的跨設(shè)備網(wǎng)絡(luò)搜索系統(tǒng)進(jìn)行調(diào)整。
步驟s502、用戶輸入查詢式后,在搜索結(jié)果頁面,顯示了經(jīng)過本發(fā)明提出的“支持跨設(shè)備搜索時(shí)搜索結(jié)果重新排序算法”(算法2)實(shí)現(xiàn)的搜索結(jié)果的排序。
步驟s503、用戶點(diǎn)擊第一個(gè)搜索結(jié)果后,瀏覽搜索結(jié)果,在該網(wǎng)頁上的信息會(huì)通過步驟s205記錄,并通過步驟s206進(jìn)行分析計(jì)算。
步驟s504、用戶發(fā)生跨設(shè)備轉(zhuǎn)移,在筆記本電腦上搜索,輸入查詢式“機(jī)器學(xué)習(xí)算法”搜索相關(guān)信息。
在本發(fā)明提出的的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索系統(tǒng)首頁為用戶顯示了“推薦搜索”、“推薦網(wǎng)頁”,用戶還可以點(diǎn)擊“搜索歷史”查看自己所有的搜索記錄,包括查詢式、訪問的網(wǎng)頁,這里的搜索歷史是按照時(shí)間倒序排列。
在“推薦搜索”、“推薦網(wǎng)頁”中,還為用戶顯示了該查詢式和該網(wǎng)頁發(fā)生的設(shè)備信息,如該查詢式來自臺(tái)式終端設(shè)備(如筆記本電腦、臺(tái)式計(jì)算機(jī)),則用圖標(biāo)
步驟s505中,用戶輸入查詢式后,在搜索結(jié)果頁面,顯示了經(jīng)過本發(fā)明提出的“支持跨設(shè)備搜索時(shí)搜索結(jié)果重新排序算法”(算法2)實(shí)現(xiàn)的搜索結(jié)果的排序。圖中顯示的是部分搜索結(jié)果的截圖,而非所有的搜索結(jié)果。
該算法計(jì)算得出的搜索結(jié)果排序,一方面考慮到用戶對(duì)先前搜索任務(wù)的恢復(fù),如在用戶先前點(diǎn)擊過的搜索結(jié)果鏈接(第一條和第三條搜索結(jié)果)下方,顯示了搜索時(shí)間、用戶點(diǎn)擊時(shí)使用的設(shè)備類型、和點(diǎn)擊該網(wǎng)頁時(shí)使用的相關(guān)查詢式。另一方面也考慮到用戶進(jìn)一步搜索相關(guān)信息的需求。
因此,在本發(fā)明提出的基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索方法和系統(tǒng)中,在搜索結(jié)果排序時(shí),并不是單純地考慮到用戶可能重復(fù)點(diǎn)擊的網(wǎng)頁和文檔,而是通過“支持跨設(shè)備搜索時(shí)搜索結(jié)果重新排序算法”(算法2),綜合考慮了用戶在不同設(shè)備上搜索時(shí)的交互數(shù)據(jù)、搜索歷史,從而支持用戶在不同設(shè)備間的無縫搜索問題。
綜上所述,本發(fā)明提供了一種基于數(shù)據(jù)融合的跨設(shè)備網(wǎng)絡(luò)信息搜索方法和系統(tǒng),支持用戶在不同設(shè)備間的跨設(shè)備網(wǎng)絡(luò)信息搜索,解決了用戶在跨設(shè)備后重復(fù)搜索、獲取更多相關(guān)信息的問題,實(shí)現(xiàn)了跨設(shè)備后搜索結(jié)果的重新排序,方便用戶在不同設(shè)備之間進(jìn)行無縫搜索,能夠提高用戶的搜索效率,改善用戶的搜索體驗(yàn)。
應(yīng)當(dāng)理解的是,對(duì)本領(lǐng)域普通技術(shù)人員來說,可以根據(jù)上述說明加以改進(jìn)或變換,而所有這些改進(jìn)和變換都應(yīng)屬于本發(fā)明所附權(quán)利要求的保護(hù)范圍。