欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于搜索信息向用戶提供網(wǎng)站選擇的方法、裝置和系統(tǒng)的制作方法

文檔序號:6382211閱讀:218來源:國知局
專利名稱:一種基于搜索信息向用戶提供網(wǎng)站選擇的方法、裝置和系統(tǒng)的制作方法
技術領域
本發(fā)明涉及互聯(lián)網(wǎng)領域,尤其涉及一種基于搜索信息向用戶提供網(wǎng)站選擇的方法、裝置和系統(tǒng)。
背景技術
信息搜索,尤其是基于移動通信的信息搜索,在用戶使用移動終端時是是非常重要的需求之一。然而,現(xiàn)在有能力提供搜索服務的網(wǎng)站,為了讓自己在產(chǎn)業(yè)鏈的競爭中更加具有優(yōu)勢,往往彼此之間互相屏蔽信息。于是,用戶常常為了獲取期望的搜索信息在各種渠道/網(wǎng)站中進行搜索。例如,為了獲取購物信息,不得不到專門的購物網(wǎng)站上搜索;為了獲取餐館信息,不得不到專門的餐飲類網(wǎng)站上搜索,為了獲取影視信息,不得不到專門的影視類網(wǎng)站上進行搜索;等等。甚至,用戶的搜索意圖也會發(fā)生變化,這可能導致用戶選擇的搜索渠道可能并不能達到其目的,這又需要用戶重新考慮并選擇另外的渠道進行信息獲取。因此,用戶常常在多個搜索渠道中進行頻繁切換,而訪問過程又非常繁瑣和機械。常見的情況是,用戶最后沒有獲得自己真正需要的信息,還耗費了大量的時間和精力,是一種非常不愉快的用戶體驗。因此,迫切需要一種能夠基于用戶輸入的搜索信息向用戶提供與搜索信息密切相關的多種搜索渠道/相關網(wǎng)站以供用戶在其中做出選擇的方法和裝置,以減輕用戶的負擔。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種能克服上述缺陷的基于搜索信息向用戶提供網(wǎng)站選擇的方法、裝置和系統(tǒng)。在本發(fā)明的第一方面,提供了一種基于搜索信息向用戶提供網(wǎng)站選擇的方法,包括對用戶輸入的搜索信息進行分詞得到一個或多個關鍵詞;在預先建立的索引數(shù)據(jù)庫中檢索所述關鍵詞得到第一網(wǎng)站列表,所述第一網(wǎng)站列表包含與所述一個或多個關鍵詞對應的一個或多個網(wǎng)站;以及對所述第一網(wǎng)站列表中的網(wǎng)站進行分類得到分類網(wǎng)站列表以便于用戶對其中的網(wǎng)站進行選擇,所述分類網(wǎng)站列表包含一個或多個分類,每個分類中包含一個或多個網(wǎng)站。在本發(fā)明的第二方面,提供了一種基于搜索信息向用戶提供網(wǎng)站選擇的裝置,包括分詞模塊,用于對用戶輸入的搜索信息進行分詞得到一個或多個關鍵詞;網(wǎng)站列表生成模塊,用于在預先建立的索引數(shù)據(jù)庫中檢索所述關鍵詞得到第一網(wǎng)站列表,所述第一網(wǎng)站列表包含與所述一個或多個關鍵詞對應的一個或多個網(wǎng)站;以及分類模塊,對所述第一網(wǎng)站列表中的網(wǎng)站進行分類得到分類網(wǎng)站列表以便于用戶對其中的網(wǎng)站進行選擇,所述分類網(wǎng)站列表包含一個或多個分類,每個分類中包含一個或多個網(wǎng)站。在本發(fā)明的第三方面,提供了一種用戶終端,包括分詞模塊,用于對用戶輸入的搜索信息進行分詞得到一個或多個關鍵詞;網(wǎng)站列表生成模塊,用于在預先建立的索引數(shù)據(jù)庫中檢索所述關鍵詞得到第一網(wǎng)站列表,所述第一網(wǎng)站列表包含與所述一個或多個關鍵詞對應的一個或多個網(wǎng)站;以及分類模塊,對所述第一網(wǎng)站列表中的網(wǎng)站進行分類得到分類網(wǎng)站列表以便于用戶對其中的網(wǎng)站進行選擇,所述分類網(wǎng)站列表包含一個或多個分類,每個分類中包含一個或多個網(wǎng)站。在本發(fā)明的第四方面,提供了一種服務器,包括分詞模塊,用于對用戶輸入的搜索信息進行分詞得到一個或多個關鍵詞;網(wǎng)站列表生成模塊,用于在預先建立的索引數(shù)據(jù)庫中檢索所述關鍵詞得到第一網(wǎng)站列表,所述第一網(wǎng)站列表包含與所述一個或多個關鍵詞對應的一個或多個網(wǎng)站;以及分類模塊,對所述第一網(wǎng)站列表中的網(wǎng)站進行分類得到分類網(wǎng)站列表以便于用戶對其中的網(wǎng)站進行選擇,所述分類網(wǎng)站列表包含一個或多個分類,每個分類中包含一個或多個網(wǎng)站。在本發(fā)明的第五方面,提供了一種基于搜索信息向用戶提供網(wǎng)站選擇的系統(tǒng),包括分詞模塊,用于對用戶輸入的搜索信息進行分詞得到一個或多個關鍵詞;網(wǎng)站列表生成模塊,用于在預先建立的索引數(shù)據(jù)庫中檢索所述關鍵詞得到第一網(wǎng)站列表,所述第一網(wǎng)站列表包含與所述一個或多個關鍵詞對應的一個或多個網(wǎng)站;分類模塊,對所述第一網(wǎng)站列表中的網(wǎng)站進行分類得到分類網(wǎng)站列表以便于用戶對其中的網(wǎng)站進行選擇,所述分類網(wǎng)站列表包含一個或多個分類,每個分類中包含一個或多個網(wǎng)站;以及用戶終端,用于將所述搜索信息發(fā)送給服務器并且從所述服務器接收所述分類網(wǎng)站列表以便于用戶對其中的網(wǎng)站進行選擇,并且用于將用戶的選擇信息發(fā)送給服務器并且從所述服務器接收所述搜索結果。本發(fā)明基于用戶輸入的搜索信息和預先建立的索引數(shù)據(jù)庫,向用戶提供與搜索信息密切相關的多個規(guī)律排列的搜索渠道/網(wǎng)站以供選擇,進而根據(jù)用戶對網(wǎng)站的選擇將該網(wǎng)站中的搜索結果返回給用戶。本發(fā)明節(jié)省了用戶搜索期望信息的時間,提高了搜索效率,改善了用戶體驗。


圖1是根據(jù)本發(fā)明實施例的基于搜索信息向用戶提供網(wǎng)站選擇的流程圖;圖2是根據(jù)本發(fā)明實施例的建立索引數(shù)據(jù)庫的方法流程圖;圖3是根據(jù)本發(fā)明實施例的基于搜索信息向用戶提供網(wǎng)站選擇的示意圖;圖4是根據(jù)本發(fā)明實施例的基于搜索信息向用戶提供網(wǎng)站選擇的裝置的示意圖;以及。圖5是根據(jù)本發(fā)明實施例的基于搜索信息向用戶提供網(wǎng)站選擇的系統(tǒng)的示意圖。
具體實施例方式下面通過附圖和實施例,對本發(fā)明的技術方案做進一步的詳細描述。本發(fā)明通過根據(jù)網(wǎng)站數(shù)據(jù)集在互聯(lián)網(wǎng)上進行數(shù)據(jù)收集并建立索引,然后根據(jù)借助索引對用戶的搜索信息進行處理,將與該搜索信息相關的網(wǎng)站以一定規(guī)律分發(fā)在用戶終端的屏幕上。圖1是根據(jù)本發(fā)明實施例的基于搜索信息向用戶提供網(wǎng)站選擇的方法流程圖。
在步驟101,用戶在用戶終端上輸入搜索信息,這些搜索信息中含有用戶的搜索意圖,該意圖預期可以通過訪問互聯(lián)網(wǎng)上的網(wǎng)站而得到結果。在步驟101之后,流程分為兩路,一路執(zhí)行步驟103、105、和107,另一路執(zhí)行步驟102、104、和 106。在步驟103,通過預先建立的分詞詞庫對該搜索信息進行分詞處理,得到一個或多個關鍵詞。在步驟105,通過在索引數(shù)據(jù)庫中以這些關鍵詞進行檢索,得到包含與這些關鍵詞對應的一個或多個網(wǎng)站的第一網(wǎng)站列表。在步驟107,根據(jù)索引數(shù)據(jù)庫中網(wǎng)站的屬性,對第一網(wǎng)站列表中的網(wǎng)站進行分類。分類后的網(wǎng)站列表包含一個或多個分類,每個分類中包含一個或多個網(wǎng)站。在步驟102,對用戶輸入的搜索信息進行語義分析。在步驟104,根據(jù)語義分析的結果和預定義規(guī)則得到第二網(wǎng)站列表。舉例來說,可以利用分詞詞庫對搜索信息進行分詞,然后用預定義規(guī)則對分詞結果進行判斷,從而得到在預定義規(guī)則中與分詞結果對應的一些網(wǎng)站。在步驟106,根據(jù)索引數(shù)據(jù)庫中網(wǎng)站的屬性,對第二網(wǎng)站列表中的網(wǎng)站進行分類。分類后的網(wǎng)站列表包含一個或多個分類,每個分類中包含一個或多個網(wǎng)站。此路的目的在于給出一個預先判斷,以便彌補或豐富另一路的網(wǎng)站列表的內(nèi)容。在步驟108,將分類之后的第一網(wǎng)站列表和第二網(wǎng)站列表進行合并,其中,同一分類的網(wǎng)站被合并。合并后的網(wǎng)站列表包含一個或多個分類,每個分類中包含一個或多個網(wǎng)站。在步驟109,對合并后的網(wǎng)站中的各個分類進行排序,并且對每一分類中的各個網(wǎng)站進行排序,以便于用戶對其中的網(wǎng)站進行選擇。在初始狀態(tài)下可以按照簡單規(guī)則對分類和分類中的網(wǎng)站執(zhí)行一個初始排序;隨后,可以通過對關鍵詞和用戶對網(wǎng)站的選擇進行統(tǒng)計和概率計算,為分類中的網(wǎng)站排序。用戶可以很方便地根據(jù)該網(wǎng)站列表選擇其中的網(wǎng)站來獲得期望的搜索結果。例如,可以按照網(wǎng)站列表中分類間以及分類中網(wǎng)站間的排序,將該網(wǎng)站列表以諸如圖標的形式顯示在用戶終端的顯示屏上。用戶通過點擊圖標選擇網(wǎng)站以獲得與輸入的搜索信息相關的搜索結果。例如,根據(jù)用戶輸入的搜索信息“哈利波特”可以得到排序后的相關網(wǎng)站列表。如果用戶想獲得電影信息,則可以在列表中選擇“影視”分類中的網(wǎng)站;如果用戶想閱覽小說,則可以在列表中選擇“小說”分類中的網(wǎng)站;如果用戶想購買實體書籍,則可以在列表中選擇“書籍”或“網(wǎng)購”分類中的網(wǎng)站。這樣,根據(jù)用戶輸入的搜索信息,將與該搜索信息相關的網(wǎng)站分門別類地提供給用戶以供其選擇,消除了用戶在多個搜索渠道中進行訪問/切換的煩惱。在步驟110,根據(jù)用戶對排序后的分類網(wǎng)站列表中的網(wǎng)站的選擇,向用戶提供該搜索信息在被選擇網(wǎng)站中的搜索結果。當用戶選擇列表中的網(wǎng)站時,用戶輸入的搜索信息被推送到用戶所選擇的網(wǎng)站,然后將該搜索信息在該網(wǎng)站中的搜索結果返回給用戶。如上所述,用戶搜索信息的關鍵詞以及用戶對網(wǎng)站的選擇被統(tǒng)計并用于概率計算,以便在初始狀態(tài)之后對分類中的網(wǎng)站進行排序。在本發(fā)明的另一個實施例中,步驟102、104、106和108可以不存在,在步驟109直接對分類的第一網(wǎng)站列表中各分類以及各個分類中的網(wǎng)站進行排序。圖2是根據(jù)本發(fā)明實施例的建立索引數(shù)據(jù)庫的流程圖。
按照預定義規(guī)則,根據(jù)網(wǎng)站數(shù)據(jù)在網(wǎng)站中進行網(wǎng)頁的抓取。例如,可以根據(jù)內(nèi)容管理系統(tǒng)(CMS)中的網(wǎng)站數(shù)據(jù)集和其中定義的規(guī)則,選取其中的一些網(wǎng)站,對這些網(wǎng)站中的網(wǎng)頁進行抓取。每個網(wǎng)站數(shù)據(jù)包括該網(wǎng)站對應的鏈接和該網(wǎng)站的類別,網(wǎng)站類別例如可以分為如網(wǎng)購、小說、影視、書籍等等,一個網(wǎng)站可以對應一個或多個網(wǎng)站類別。從抓取的網(wǎng)頁中提取出關鍵字段,關鍵字段可以是網(wǎng)頁的標題或者是其他重要的附加信息。然后,通過分詞詞庫對關鍵字段進行分詞處理,從中提取出關鍵詞。在初始階段,分詞詞庫中包含有一定規(guī)模的分詞數(shù)據(jù)。在關鍵詞提取出來之后,還可以進一步對其進行優(yōu)化處理。例如,可以按照網(wǎng)站類另IJ,對關鍵詞進行歸并。因為很可能存在這種情況,即在從網(wǎng)站抓取的多數(shù)網(wǎng)頁中都出現(xiàn)了兩個或多個特定關鍵詞的相同組合,為了減小隨后建立的索引的規(guī)模并且提高檢索索引的效率,需要將這些重復出現(xiàn)的組合關鍵詞歸并為一個關鍵詞。歸并標準可以通過預先設定閾值來判斷,即如果兩個或多個關鍵詞的組合在網(wǎng)頁中的出現(xiàn)頻率超過該預定閾值,則將該組合歸并為一個關鍵詞。在這之后,還可以從提取出的若干關鍵詞提取一些在網(wǎng)頁中出現(xiàn)頻率超過預定閾值的關鍵詞,將這些所謂的高頻關鍵詞并入到分詞詞庫中,以提高分詞效率。最終,根據(jù)關鍵詞的最終結果建立關鍵詞_>網(wǎng)站的索引數(shù)據(jù)庫,索引中的每個網(wǎng)站具有網(wǎng)站類別的屬性以指明其屬于一個或多個網(wǎng)站類別,并且其中,一個關鍵詞可以對應一個或多個網(wǎng)站。圖3是根據(jù)本發(fā)明實施例的向用戶提供網(wǎng)站訪問的方法流程圖。在前處理中,根據(jù)分詞詞庫對用戶輸入的搜索信息進行分詞處理得到分詞結果。該搜索信息可以來自于用戶直接輸入的文字和/或符號,也可以是將用戶語音進行識別后轉換而成的。然后,通過預定義的一些特殊規(guī)則對分詞結果進行判斷,預定義規(guī)則包括了分詞結果與一些網(wǎng)站的對應關系,通過判斷得出一系列網(wǎng)站,其中,這些網(wǎng)站各自歸屬于一個或多個網(wǎng)站類別。通過對這些網(wǎng)站進行分類可以得到網(wǎng)站列表I。網(wǎng)站列表I包含一個或多個網(wǎng)站類別,每個網(wǎng)站類別中包含一個或多個網(wǎng)站。例如,用戶輸入“哪里”、“電影”、“價格”這些一般不體現(xiàn)具體意義的詞,通過預定義規(guī)則,則可以在該網(wǎng)站列表I中給出“旅游”、“影視”、“購物” 一類的網(wǎng)站。簡言之,前處理是根據(jù)用戶輸入進行語義分析,從而針對潛在的用戶目的給出一個預先判斷,進而給出一個有針對性的網(wǎng)站列表。在關鍵詞-網(wǎng)站的索引中檢索分詞結果,得到分詞結果在索引中對應的一系列網(wǎng)站。根據(jù)索引中網(wǎng)站的網(wǎng)站類別屬性,對這一系列網(wǎng)站進行分類,最終得到網(wǎng)站列表2。網(wǎng)站列表2包含一個或多個網(wǎng)站類別,每個網(wǎng)站類別中包含一個或多個網(wǎng)站。簡言之,檢索索引是一個較之上述的前處理更為精確的處理,得到的是一個能夠在索引中有據(jù)可緣的網(wǎng)站列表。然后,將網(wǎng)站列表I和網(wǎng)站列表2進行合并得到網(wǎng)站列表3,同一類別的網(wǎng)站被合并在一個網(wǎng)站類別中。網(wǎng)站列表I可以對網(wǎng)站列表2起補充/豐富的作用。當然,網(wǎng)站列表3包含一個或多個網(wǎng)站類別,每個網(wǎng)站類別中包含一個或多個網(wǎng)站。在后處理中,對網(wǎng)站列表3進行優(yōu)先級排序,包括對網(wǎng)站類別進行排序以及對一個網(wǎng)站類別中的多個網(wǎng)站進行排序。下面詳細描述優(yōu)先級排序的處理過程。在初始狀態(tài)下將執(zhí)行一個初始排序。在初始排序中,對網(wǎng)站類別的排序可以按照小流量優(yōu)先的原則進行,即按照網(wǎng)站流量進行排序,流量越小的網(wǎng)站類別的排序越靠前;對同一網(wǎng)站類別中的若干網(wǎng)站的排序可以按照訪問速度、內(nèi)容完備性、易用性等指標以一定規(guī)則對網(wǎng)站進行評分,評分靠前的網(wǎng)站的排序靠前。接下來,按照用戶輸入的分詞結果對同一網(wǎng)站類別中的若干網(wǎng)站進行排序。設用戶輸入的分詞結果為il,i2, i3,. . .,in,則在最后得出的網(wǎng)站列表中的一個網(wǎng)站類別中,網(wǎng)站S的顯示優(yōu)先級可以通過下列公式來計算,優(yōu)先級越高的網(wǎng)站在一個網(wǎng)站類別中排序越靠前。優(yōu)先級=初始權重*a+ ((Pr (S | i I) + (Pr (S | i2) + + (Pr (S | in)) *b在上面的公式中,(Pr(S|A)為在用戶輸入的分詞結果包含關鍵詞A的情況下,用戶選擇網(wǎng)站S的頻率;初始權重為預先設定的值;a和b為調整系數(shù),其初始值可以分別為0. 5,并且可以使用統(tǒng)計分析模型不斷優(yōu)化,統(tǒng)計分析模型例如可以是隱馬爾可夫模型(Hidden Markov Model, HMM)。(Pr (S| A) =Pr (A |S) *Pr (S)/Pr(A),其中,Pr (A | S)是用戶選擇網(wǎng)站 S 的情況下,用戶輸入的分詞結果包含關鍵詞A的概率,Pr(S)是用戶選擇網(wǎng)站S的概率,Pr(A)是用戶輸入的分詞結果包含關鍵詞A的概率,最后,按照后處理的結果將網(wǎng)站列表3提供給用戶,例如將排序后的網(wǎng)站列表3顯示在用戶終端的顯示屏上,以供用戶對其中的網(wǎng)站進行選擇訪問。這樣,用戶通過輸入搜索信息,就可以得到一個與該搜索信息相關的網(wǎng)站列表,并且該網(wǎng)站列表是按照一定規(guī)律排列顯示的。用戶通過直觀的判斷,可以方便地選擇最期望的網(wǎng)站查看搜索結果。圖4是根據(jù)本發(fā)明實施例的基于搜索信息向用戶提供網(wǎng)站選擇的裝置的示意圖。如圖4中所示,網(wǎng)頁抓取模塊、關鍵字段提取模塊、第一分詞模塊和索引數(shù)據(jù)庫建立模塊用于建立索引數(shù)據(jù)庫。在本發(fā)明的另一個實施例中,上述模塊可以存在于裝置之外,即事先在裝置之外已建立好索引數(shù)據(jù)庫并將其存儲在裝置中。網(wǎng)頁抓取模塊按照預定義規(guī)則,根據(jù)網(wǎng)站數(shù)據(jù)在網(wǎng)站中進行網(wǎng)頁的抓取。例如,可以根據(jù)內(nèi)容管理系統(tǒng)(CMS )中的網(wǎng)站數(shù)據(jù)集和其中定義的規(guī)則,選取其中的一些網(wǎng)站,對這些網(wǎng)站中的網(wǎng)頁進行抓取。每個網(wǎng)站數(shù)據(jù)包括該網(wǎng)站對應的鏈接和該網(wǎng)站的類別,網(wǎng)站類別例如可以分為如網(wǎng)購、小說、影視、書籍等等,一個網(wǎng)站可以對應一個或多個網(wǎng)站類別。關鍵字段提取模塊從抓取的網(wǎng)頁中提取出關鍵字段,關鍵字段可以是網(wǎng)頁的標題或者是其他重要的附加信息。然后,第一分詞模塊通過分詞詞庫對關鍵字段進行分詞處理,從中提取出關鍵詞。在初始階段,分詞詞庫中包含有一定規(guī)模的分詞數(shù)據(jù)。在關鍵詞提取出來之后,還可以進一步對其進行優(yōu)化處理。例如,可以按照網(wǎng)站類另IJ,對關鍵詞進行歸并。因為很可能存在這種情況,即在從網(wǎng)站抓取的多數(shù)網(wǎng)頁中都出現(xiàn)了兩個或多個特定關鍵詞的相同組合,為了減小隨后建立的索引的規(guī)模并且提高檢索索引的效率,需要將這些重復出現(xiàn)的組合關鍵詞歸并為一個關鍵詞。歸并標準可以通過預先設定閾值來判斷,即如果兩個或多個關鍵詞的組合在網(wǎng)頁中的出現(xiàn)頻率超過該預定閾值,則將該組合歸并為一個關鍵詞。在這之后,還可以從提取出的若干關鍵詞提取一些在網(wǎng)頁中出現(xiàn)頻率超過預定閾值的關鍵詞,將這些所謂的高頻關鍵詞并入到分詞詞庫中,以提高分詞效率。
最終,索引數(shù)據(jù)庫建立模塊根據(jù)關鍵詞的最終結果建立關鍵詞_>網(wǎng)站的索引數(shù)據(jù)庫,索引中的每個網(wǎng)站具有網(wǎng)站類別的屬性以指明其屬于一個或多個網(wǎng)站類別,并且其中,一個關鍵詞可以對應一個或多個網(wǎng)站。還如圖4中所示,第二分詞模塊、語義分析模塊、網(wǎng)站列表生成模塊、合并模塊、分類模塊、排序模塊和搜索結果提供模塊用于基于用戶輸入的搜索信息和索引數(shù)據(jù)庫向用戶提供網(wǎng)站選擇并將被選擇網(wǎng)站的搜索結果返回給用戶。當用戶輸入搜索信息時,第二分詞模塊通過預先建立的分詞詞庫對該搜索信息進行分詞處理,得到一個或多個關鍵詞。語義分析模塊對用戶輸入的搜索信息進行語義分析,得到語義分析結果。一方面,網(wǎng)站列表生成模塊通過在索引數(shù)據(jù)庫中以這些關鍵詞進行檢索,得到包含與這些關鍵詞對應的一個或多個網(wǎng)站的第一網(wǎng)站列表;另一方面,網(wǎng)站列表生成模塊根據(jù)語義分析的結果和預定義規(guī)則得到第二網(wǎng)站列表。分類模塊根據(jù)索引數(shù)據(jù)庫中網(wǎng)站的屬性,對第一網(wǎng)站列表和第二網(wǎng)站列表中的網(wǎng)站進行分類。接下來,合并模塊將分類之后的第一網(wǎng)站列表和第二網(wǎng)站列表進行合并,其中,同一分類的網(wǎng)站被合并。合并后的網(wǎng)站列表包含一個或多個分類,每個分類中包含一個或多個網(wǎng)站。應當指出,合并模塊和分類模塊的執(zhí)行不限于上述的時序關系,還可以先合并再分類。排序模塊對合并后的網(wǎng)站中的各個分類進行排序,并且對每一分類中的各個網(wǎng)站進行排序,以便于用戶對其中的網(wǎng)站進行選擇。在初始狀態(tài)下可以按照簡單規(guī)則對分類和分類中的網(wǎng)站執(zhí)行一個初始排序;隨后,可以通過對關鍵詞和用戶對網(wǎng)站的選擇進行統(tǒng)計和概率計算,為分類中的網(wǎng)站排序。搜索結果提供模塊根據(jù)用戶對排序后的分類網(wǎng)站列表中的網(wǎng)站的選擇,向用戶提供該搜索信息在被選擇網(wǎng)站中的搜索結果。當用戶選擇列表中的網(wǎng)站時,用戶輸入的搜索信息被推送到用戶所選擇的網(wǎng)站,然后將該搜索信息在該網(wǎng)站中的搜索結果返回給用戶。如上所述,用戶搜索信息的關鍵詞以及用戶對網(wǎng)站的選擇被統(tǒng)計并用于概率計算,以便在初始狀態(tài)之后對分類中的網(wǎng)站進行排序。應當指出,第一分詞模塊和第二分詞模塊可以是同一分詞模塊也可以是不同的分詞模塊,這取決于建立索引數(shù)據(jù)庫的模塊群的位置以及系統(tǒng)效率考慮。在本發(fā)明的另一個實施例中,可以不進行語義分析而只基于索引數(shù)據(jù)庫建立第一網(wǎng)站列表,因此語義分析模塊和合并模塊可以不存在,網(wǎng)站列表建立模塊和分類模塊的功能也相應地簡化。圖5是根據(jù)本發(fā)明實施例的基于搜索信息向用戶提供網(wǎng)站選擇的系統(tǒng)的示意圖。服務器包括網(wǎng)頁抓取模塊、關鍵字段提取模塊、分詞模塊和索引數(shù)據(jù)庫建立模塊,用于建立索引數(shù)據(jù)庫。網(wǎng)頁抓取模塊按照預定義規(guī)則,根據(jù)網(wǎng)站數(shù)據(jù)在網(wǎng)站中進行網(wǎng)頁的抓取。例如,可以根據(jù)內(nèi)容管理系統(tǒng)(CMS )中的網(wǎng)站數(shù)據(jù)集和其中定義的規(guī)則,選取其中的一些網(wǎng)站,對這些網(wǎng)站中的網(wǎng)頁進行抓取。每個網(wǎng)站數(shù)據(jù)包括該網(wǎng)站對應的鏈接和該網(wǎng)站的類別,網(wǎng)站類別例如可以分為如網(wǎng)購、小說、影視、書籍等等,一個網(wǎng)站可以對應一個或多個網(wǎng)站類別。關鍵字段提取模塊從抓取的網(wǎng)頁中提取出關鍵字段,關鍵字段可以是網(wǎng)頁的標題或者是其他重要的附加信息。然后,分詞模塊通過分詞詞庫對關鍵字段進行分詞處理,從中提取出關鍵詞。在初始階段,分詞詞庫中包含有一定規(guī)模的分詞數(shù)據(jù)。在關鍵詞提取出來之后,還可以進一步對其進行優(yōu)化處理。例如,可以按照網(wǎng)站類另IJ,對關鍵詞進行歸并。因為很可能存在這種情況,即在從網(wǎng)站抓取的多數(shù)網(wǎng)頁中都出現(xiàn)了兩個或多個特定關鍵詞的相同組合,為了減小隨后建立的索引的規(guī)模并且提高檢索索引的效率,需要將這些重復出現(xiàn)的組合關鍵詞歸并為一個關鍵詞。歸并標準可以通過預先設定閾值來判斷,即如果兩個或多個關鍵詞的組合在網(wǎng)頁中的出現(xiàn)頻率超過該預定閾值,則將該組合歸并為一個關鍵詞。在這之后,還可以從提取出的若干關鍵詞提取一些在網(wǎng)頁中出現(xiàn)頻率超過預定閾值的關鍵詞,將這些所謂的高頻關鍵詞并入到分詞詞庫中,以提高分詞效率。最終,索引數(shù)據(jù)庫建立模塊根據(jù)關鍵詞的最終結果建立關鍵詞_>網(wǎng)站的索引數(shù)據(jù)庫,索引中的每個網(wǎng)站具有網(wǎng)站類別的屬性以指明其屬于一個或多個網(wǎng)站類別,并且其中,一個關鍵詞可以對應一個或多個網(wǎng)站。服務器還包括語義分析模塊、網(wǎng)站列表生成模塊、合并模塊、分類模塊、排序模塊和搜索結果提供模塊用于基于用戶輸入的搜索信息和索引數(shù)據(jù)庫向用戶提供網(wǎng)站選擇并將被選擇網(wǎng)站的搜索結果返回給用戶。用戶通過用戶終端輸入的搜索信息通過網(wǎng)絡被發(fā)送到服務器,分詞模塊通過預先建立的分詞詞庫對該搜索信息進行分詞處理,得到一個或多個關鍵詞。語義分析模塊對用戶輸入的搜索信息進行語義分析,得到語義分析結果。一方面,網(wǎng)站列表生成模塊通過在索引數(shù)據(jù)庫中以這些關鍵詞進行檢索,得到包含與這些關鍵詞對應的一個或多個網(wǎng)站的第一網(wǎng)站列表;另一方面,網(wǎng)站列表生成模塊根據(jù)語義分析的結果和預定義規(guī)則得到第二網(wǎng)站列表。分類模塊根據(jù)索引數(shù)據(jù)庫中網(wǎng)站的屬性,對第一網(wǎng)站列表和第二網(wǎng)站列表中的網(wǎng)站進行分類。接下來,合并模塊將分類之后的第一網(wǎng)站列表和第二網(wǎng)站列表進行合并,其中,同一分類的網(wǎng)站被合并。合并后的網(wǎng)站列表包含一個或多個分類,每個分類中包含一個或多個網(wǎng)站。應當指出,合并模塊和分類模塊的執(zhí)行不限于上述的時序關系,也可以先合并然后分類。排序模塊對合并后的網(wǎng)站中的各個分類進行排序,并且對每一分類中的各個網(wǎng)站進行排序。然后,排序后的網(wǎng)站列表通過網(wǎng)絡被發(fā)送到用戶終端,以便于用戶對其中的網(wǎng)站進行選擇。在初始狀態(tài)下可以按照簡單規(guī)則對分類和分類中的網(wǎng)站執(zhí)行一個初始排序;隨后,可以通過對關鍵詞和用戶對網(wǎng)站的選擇進行統(tǒng)計和概率計算,為分類中的網(wǎng)站排序。在用戶對列表中的網(wǎng)站做出選擇之后,其選擇信息通過網(wǎng)絡被發(fā)送到服務器。月艮務器中的搜索結果提供模塊接收用戶對排序后的分類網(wǎng)站列表中的網(wǎng)站的選擇信息,根據(jù)選擇信息將搜索信息推送到用戶選擇的網(wǎng)站,獲得將該搜索信息在該網(wǎng)站中的搜索結果并將其通過網(wǎng)絡返回給用戶終端。如上所述,用戶搜索信息的關鍵詞以及用戶對網(wǎng)站的選擇被統(tǒng)計并用于概率計算,以便在初始狀態(tài)之后對分類中的網(wǎng)站進行排序。專業(yè)人員應該還可以進一步意識到,結合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機軟件或者二者的結合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術方案的特定應用和設計約束條件。專業(yè)技術人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。結合本文中所公開的實施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的軟件模塊,或者二者的結合來實施。軟件模塊可以置于隨機存儲器(RAM)、內(nèi)存、只讀存儲器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動磁盤、CD-ROM、或技術領域內(nèi)所公知的任意其它形式的存儲介質中。以上所述的具體實施方式
,對本發(fā)明的目的、技術方案和有益效果進行了進一步詳細說明,所應理解的是,以上所述僅為本發(fā)明的具體實施方式
而已,并不用于限定本發(fā)明的保護范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
權利要求
1.一種基于搜索信息向用戶提供網(wǎng)站選擇的方法,包括 對用戶輸入的搜索信息進行分詞得到一個或多個關鍵詞; 在預先建立的索引數(shù)據(jù)庫中檢索所述關鍵詞得到第一網(wǎng)站列表,所述第一網(wǎng)站列表包含與所述一個或多個關鍵詞對應的一個或多個網(wǎng)站;以及 對所述第一網(wǎng)站列表中的網(wǎng)站進行分類得到分類網(wǎng)站列表以便于用戶對其中的網(wǎng)站進行選擇,所述分類網(wǎng)站列表包含一個或多個分類,每個分類中包含一個或多個網(wǎng)站。
2.根據(jù)權利要求1所述的方法,還包括 對所述分類網(wǎng)站列表中的一個或多個分類進行排序并且對所述每個分類中的網(wǎng)站進行排序,得到排序后的分類網(wǎng)站列表以便于用戶對其中的網(wǎng)站進行選擇。
3.根據(jù)權利要求1所述的方法,還包括 對用戶輸入的搜索信息進行語義分析; 根據(jù)語義分析的結果和預定義規(guī)則得到第二網(wǎng)站列表,所述第二網(wǎng)站列表包含一個或多個網(wǎng)站; 對所述第二網(wǎng)站列表中的網(wǎng)站進行分類得到預判網(wǎng)站列表,所述預判網(wǎng)站列表包含一個或多個分類,每個分類中包含一個或多個網(wǎng)站;以及 將所述預判網(wǎng)站列表與所述分類網(wǎng)站列表合并以便于用戶對其中的網(wǎng)站進行選擇。
4.根據(jù)權利要求2所述的方法,其中,對所述每個分類中的網(wǎng)站進行排序的步驟包括 統(tǒng)計在所述一個或多個關鍵詞中的一個關鍵詞通過分詞得到的情況下,用戶選擇訪問所述每個分類中的一個網(wǎng)站的概率; 根據(jù)與所述一個或多個關鍵詞中的所有關鍵詞對應的一個或多個所述概率,計算所述一個網(wǎng)站在每個分類中的排序優(yōu)先級;以及 根據(jù)所述排序優(yōu)先級對每個分類中的網(wǎng)站進行排序。
5.根據(jù)權利要求1所述的方法,還包括 根據(jù)用戶對所述分類網(wǎng)站列表中的網(wǎng)站的選擇信息,向用戶提供所述搜索信息在被選擇網(wǎng)站中的搜索結果。
6.根據(jù)權利要求1所述的方法,還包括 通過網(wǎng)絡從多個網(wǎng)站上抓取網(wǎng)頁; 從抓取的網(wǎng)頁中提取出多個關鍵字段; 根據(jù)預先建立的分詞詞庫對所述多個關鍵字段進行分詞得到多個關鍵詞;以及根據(jù)所述多個關鍵詞與所述多個網(wǎng)站的對應關系建立所述索引數(shù)據(jù)庫,其中所述索引數(shù)據(jù)庫中的一個關鍵詞對應一個或多個網(wǎng)站。
7.根據(jù)權利要求6所述的方法,還包括 將所述多個關鍵詞中的兩個或多個關鍵詞歸并為一個關鍵詞,所述兩個或多個關鍵詞的組合在網(wǎng)頁中的出現(xiàn)頻率超過預定閾值。
8.根據(jù)權利要求6所述的方法,還包括 將所述多個關鍵詞中的高頻關鍵詞并入所述分詞詞庫,所述高頻關鍵詞是在所述網(wǎng)頁中的出現(xiàn)頻率超過預定閾值的關鍵詞。
9.一種基于搜索信息向用戶提供網(wǎng)站選擇的裝置,包括 分詞模塊,用于對用戶輸入的搜索信息進行分詞得到一個或多個關鍵詞;網(wǎng)站列表生成模塊,用于在預先建立的索引數(shù)據(jù)庫中檢索所述關鍵詞得到第一網(wǎng)站列表,所述第一網(wǎng)站列表包含與所述一個或多個關鍵詞對應的一個或多個網(wǎng)站;以及 分類模塊,對所述第一網(wǎng)站列表中的網(wǎng)站進行分類得到分類網(wǎng)站列表以便于用戶對其中的網(wǎng)站進行選擇,所述分類網(wǎng)站列表包含一個或多個分類,每個分類中包含一個或多個網(wǎng)站。
10.根據(jù)權利要求9所述的裝置,還包括 排序模塊,用于對所述分類網(wǎng)站列表中的一個或多個分類進行排序并且對所述每個分類中的網(wǎng)站進行排序,得到排序后的分類網(wǎng)站列表以便于用戶對其中的網(wǎng)站進行選擇。
11.根據(jù)權利要求9所述的裝置,還包括 語義分析模塊,用于對用戶輸入的搜索信息進行語義分析; 其中,所述網(wǎng)站列表生成模塊還用于根據(jù)語義分析的結果和預定義規(guī)則得到第二網(wǎng)站列表,所述第二網(wǎng)站列表包含一個或多個網(wǎng)站,所述分類模塊還用于對所述第二網(wǎng)站列表中的網(wǎng)站進行分類得到預判網(wǎng)站列表,所述預判網(wǎng)站列表包含一個或多個分類,每個分類中包含一個或多個網(wǎng)站;以及 合并模塊,還用于將所述預判網(wǎng)站列表與所述分類網(wǎng)站列表合并以便于用戶對其中的網(wǎng)站進行選擇。
12.根據(jù)權利要求9所述的裝置,所述分類模塊包括 用于統(tǒng)計在所述一個或多個關鍵詞中的一個關鍵詞通過分詞得到的情況下,用戶選擇訪問所述每個分類中的一個網(wǎng)站的概率的模塊; 用于根據(jù)與所述一個或多個關鍵詞中的所有關鍵詞對應的一個或多個所述概率,計算所述一個網(wǎng)站在每個分類中的排序優(yōu)先級的模塊;以及 用于根據(jù)所述排序優(yōu)先級對每個分類中的網(wǎng)站進行排序的模塊。
13.根據(jù)權利要求9所述的裝置,還包括 搜索結果提供模塊,用于根據(jù)用戶的選擇信息,向用戶提供所述搜索信息在被選擇網(wǎng)站中的搜索結果。
14.根據(jù)權利要求9所述的裝置,還包括 網(wǎng)頁抓取模塊,用于通過網(wǎng)絡從多個網(wǎng)站上抓取網(wǎng)頁; 關鍵字段提取模塊,用于從抓取的網(wǎng)頁中提取出多個關鍵字段; 其中,所述分詞模塊還用于根據(jù)預先建立的分詞詞庫對所述多個關鍵字段進行分詞得到多個關鍵詞;以及 索引數(shù)據(jù)庫建立模塊,用于根據(jù)所述多個關鍵詞與所述多個網(wǎng)站的對應關系建立所述索弓I數(shù)據(jù)庫,其中,所述索弓I數(shù)據(jù)庫中的一個關鍵詞對應一個或多個網(wǎng)站。
15.根據(jù)權利要求14所述的裝置,還包括 用于將所述多個關鍵詞中的兩個或多個關鍵詞歸并為一個關鍵詞的模塊,所述兩個或多個關鍵詞的組合在網(wǎng)頁中的出現(xiàn)頻率超過預定閾值。
16.根據(jù)權利要求14所述的裝置,還包括 用于將所述多個關鍵詞中的高頻關鍵詞并入所述分詞詞庫的模塊,所述高頻關鍵詞是在所述網(wǎng)頁中的出現(xiàn)頻率超過預定閾值的關鍵詞。
17.一種用戶終端,包括如權利要求9-16之一所述的基于搜索信息向用戶提供網(wǎng)站選擇的裝置。
18.一種服務器,包括如權利要求9-16之一所述的基于搜索信息向用戶提供網(wǎng)站選擇的裝置。
19.一種基于搜索信息向用戶提供網(wǎng)站選擇的系統(tǒng),包括如權利要求18所述的服務器和用戶終端,所述用戶終端用于將所述搜索信息發(fā)送給服務器并且從所述服務器接收所述分類網(wǎng)站列表以便于用戶對其中的網(wǎng)站進行選擇,所述用戶終端還用于將用戶的選擇信息發(fā)送給服務器并且從所述服務器接收所述搜索結果。
全文摘要
本發(fā)明涉及一種基于搜索信息向用戶提供網(wǎng)站選擇的方法、裝置及系統(tǒng),該方法包括對用戶輸入的搜索信息進行分詞得到一個或多個關鍵詞;在預先建立的索引數(shù)據(jù)庫中檢索所述關鍵詞得到第一網(wǎng)站列表,所述第一網(wǎng)站列表包含與所述一個或多個關鍵詞對應的一個或多個網(wǎng)站;以及對所述第一網(wǎng)站列表中的網(wǎng)站進行分類得到分類網(wǎng)站列表以便于用戶對其中的網(wǎng)站進行選擇,所述分類網(wǎng)站列表包含一個或多個分類,每個分類中包含一個或多個網(wǎng)站。本發(fā)明向用戶提供與搜索信息密切相關的多個規(guī)律排列的搜索渠道/網(wǎng)站以供選擇,進而根據(jù)用戶選擇將該網(wǎng)站中的搜索結果返回給用戶。本發(fā)明節(jié)省了用戶的搜索時間,提高了搜索效率,改善了用戶體驗。
文檔編號G06F17/30GK103064880SQ20121048444
公開日2013年4月24日 申請日期2012年11月23日 優(yōu)先權日2012年11月23日
發(fā)明者覃文浩, 韓慶, 譚真, 王皓 申請人:覃文浩, 韓慶, 譚真, 王皓
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
广德县| 郯城县| 长兴县| 睢宁县| 改则县| 灵宝市| 安康市| 密云县| 滦南县| 古蔺县| 平利县| 炎陵县| 普定县| 双桥区| 习水县| 铜鼓县| 绍兴市| 巴林左旗| 南汇区| 保亭| 巫溪县| 页游| 襄城县| 延庆县| 沙田区| 汉阴县| 雅江县| 宁海县| 镇坪县| 剑川县| 崇礼县| 惠水县| 偃师市| 临澧县| 济阳县| 元氏县| 肇源县| 中阳县| 磴口县| 秭归县| 关岭|