專利名稱:搜索方法及搜索系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及互聯(lián)網(wǎng)領域,尤其涉及一種搜索方法和一種搜索系統(tǒng)。
背景技術:
搜索引擎技術是隨著互聯(lián)網(wǎng)技術的發(fā)展而不斷發(fā)展完善的,其作用是根據(jù)用戶輸入的請求關鍵詞對海量信息進行搜索,幫助用戶獲取目標信息?,F(xiàn)有的捜索流程通常包括根據(jù)用戶提供的請求關鍵詞進行分詞等計算,返回一個與請求關鍵詞相關的信息列表供用戶篩選。本發(fā)明的發(fā)明人對以上方法進行了深入研究,發(fā)現(xiàn)存在以下問題第一、現(xiàn)有搜索方法的捜索難度大,耗費用戶的搜索時間較長。由于這種捜索方法根據(jù)用戶的請求關鍵詞提供一個信息列表,而信息列表的內(nèi)容繁多,需要用戶在篩選信息列表的過程中逐步理解搜索引擎的使用方法,理解關鍵詞輸入的技巧,通過調整請求關鍵詞重新表達信息需求,増加了用戶的搜索時間和搜索難度。第二、當用戶輸入的請求關鍵詞不準確時,難以為用戶快速提供目標信息。例如,用戶的目標信息是有夫“長城飯店”的信息,但用戶誤將請求關鍵詞輸入為“長城飯館”。由于現(xiàn)有的捜索方法是對請求關鍵詞進行分詞處理,即將請求關鍵詞“長城飯館”拆分為“長城”和“飯館”,并提供每個詞的相關信息列表。因此,即使分詞準確,也會產(chǎn)生有關“長城”和“飯館”的大量信息,使得用戶難以在眾多信息中發(fā)現(xiàn)“長城飯店”的信息。而分詞錯誤所產(chǎn)生的干擾信息更多。雖然經(jīng)過改良的捜索方法通過同義詞、近義詞處理能得到部分相關結果,但系統(tǒng)開發(fā)和維護量大,捜索計算的規(guī)則復雜。
發(fā)明內(nèi)容
本發(fā)明的發(fā)明人發(fā)現(xiàn)上述現(xiàn)有技術中存在捜索難度大、用戶搜索耗時長等問題,并因此針對所述問題中的至少ー個問題提出了一種新的技術方案。本發(fā)明的ー個目的是提供一種搜索方法和捜索系統(tǒng),用于為用戶提高方便快速的捜索服務。本發(fā)明的另ー個目的是把后臺與用戶搜索行為相關的業(yè)務數(shù)據(jù)或信息,通過特征提取和相關度計算的方法,在用戶輸入相似關鍵詞時,第一時間反饋到用戶搜索界面。根據(jù)本發(fā)明的第一方面,提供了一種搜索方法,包括S101.接收用戶輸入的請求關鍵詞;S102.根據(jù)所述請求關鍵詞從服務特征庫中提取相關的特征關鍵詞,并提供給用戶以供用戶選擇;S103.響應于用戶對特征關鍵詞的選擇,從信息數(shù)據(jù)庫中提取與所述特征關鍵詞相對應的信息,并將所提取的信息提供給用戶。優(yōu)選地,步驟S102包括計算所述請求關鍵詞與所述服務特征庫中的特征關鍵詞的關聯(lián)度;判斷所述關聯(lián)度是否高于關聯(lián)閾值,將高于關聯(lián)閾值的特征關鍵詞從服務特征庫中提取。
優(yōu)選地,所述關聯(lián)度的計算是計算所述請求關鍵詞和所述特征關鍵詞的字符相似度和/或語意相似度。優(yōu)選地,步驟S103還包括計算所述特征關鍵詞與信息的相關度。優(yōu)選地,所述特征關鍵詞與信息的相關度的計算包括根據(jù)語意計算模型計算所述特征關鍵詞與信息的第一相關度;根據(jù)信息日志記錄,計算所述特征關鍵詞與信息的第二相關度;根據(jù)所述特征關鍵詞與信息的第一相關度和第二相關度計算出綜合相關度。優(yōu)選地,所述從信息數(shù)據(jù)庫中提取與所述特征關鍵詞相對應的信息是根據(jù)所述特征關鍵詞與信息的相關度進行的。優(yōu)選地,在步驟S102中,所述特征關鍵詞為針對全部類別或者至少ー個類別的特征關鍵詞。優(yōu)選地,所述類別包括業(yè)務數(shù)據(jù)類別、用戶信息需求數(shù)據(jù)類別(例如,可以是用戶需求個性特征類別)、用戶環(huán)境數(shù)據(jù)類別、用戶信息需求時間數(shù)據(jù)類別和服務數(shù)據(jù)類別。優(yōu)選地,所述搜索方法還包括展現(xiàn)所述特征關鍵詞的對應信息的內(nèi)容摘要。本發(fā)明還提供ー種搜索系統(tǒng),包括搜索請求接收單元,用于接收用戶輸入的請求關鍵詞;服務特征庫,用于存儲特征關鍵詞;特征關鍵詞提取単元,用于根據(jù)所述請求關鍵詞從服務特征庫中提取特征關鍵詞,并提供給用戶以供用戶選擇;信息提取單元,用于響應于用戶對特征關鍵詞的選擇,從信息數(shù)據(jù)庫中提取與所述特征關鍵詞相對應的信息,并將所提取的信息提供給用戶。優(yōu)選地,所述特征關鍵詞提取單元包括關聯(lián)度計算模塊,用于計算所述請求關鍵詞與所述服務特征庫中的特征關鍵詞的關聯(lián)度;關聯(lián)度判斷模塊,用于判斷所述關聯(lián)度是否高于關聯(lián)閾值;特征關鍵詞提取模塊,用于從服務特征庫中提取高于關聯(lián)閾值的特征關鍵詞。優(yōu)選地,所述關聯(lián)度計算模塊包括字符相似度計算子模塊,用于計算所述請求關鍵詞和所述特征關鍵詞的字符相似度;和/或語意相似度計算子模塊,用于計算所述請求關鍵詞和所述特征關鍵詞的語意相似度。優(yōu)選地,所述搜索系統(tǒng)還包括信息相關度計算單元,用于計算所述特征關鍵詞與信息的相關度,并將所述相關度存儲于所述服務特征庫中。所述信息提取單元包括第一相關度計算模塊,用于根據(jù)語意計算模型計算所述特征關鍵詞與信息的第一相關度;第二相關度計算模塊,用于根據(jù)信息日志記錄,計算所述特征關鍵詞與信息的第
二相關度;綜合相關度計算模塊,用于根據(jù)所述特征關鍵詞與信息的第一相關度和第二相關度計算出綜合相關度。
優(yōu)選地,所述信息提取單元從所述信息數(shù)據(jù)庫匯總提取與所述特征關鍵詞對應的信息是根據(jù)所述特征關鍵詞與信息的相關度進行的。優(yōu)選地,所述搜索系統(tǒng)還包括信息摘要提取單元,用于從信息數(shù)據(jù)庫中提取與所述特征關鍵詞相對應的信息摘要并進行展示。本發(fā)明的ー個優(yōu)點在于,根據(jù)用戶的請求關鍵詞能夠自動提供更加準確合理的特征關鍵詞,如果用戶選擇特征關鍵詞進行捜索,可以方便快捷地找到目標信息,避免逐條翻頁查找信息,有效節(jié)約了捜索時間。通過以下參照附圖對本發(fā)明的示例性實施例的詳細描述,本發(fā)明的其它特征及其優(yōu)點將會變得清楚。
構成說明書的一部分的附圖描述了本發(fā)明的實施例,并且連同說明書一起用于解釋本發(fā)明的原理。參照附圖,根據(jù)下面的詳細描述,可以更加清楚地理解本發(fā)明,其中圖1為本發(fā)明的搜索方法的一個實施例的流程圖;圖2為本發(fā)明的捜索方法的另ー個實施例的流程圖;圖3為本發(fā)明的捜索方法的又一個實施例的流程圖;圖4為本發(fā)明的搜索系統(tǒng)的ー個實施例的結構示意圖;圖5為圖4中的特征關鍵詞提取單元的結構示意圖;圖6為圖5中的關聯(lián)度計算模塊的結構示意圖;圖7為本發(fā)明的搜索系統(tǒng)的另一個實施例的結構示意圖;圖8為圖7中的信息相關度計算單元的結構示意圖;圖9為本發(fā)明的搜索系統(tǒng)的又一個實施例的結構示意圖;圖10為本發(fā)明的搜索系統(tǒng)的再一個實施例的結構示意圖。
具體實施例方式現(xiàn)在將參照附圖來詳細描述本發(fā)明的各種示例性實施例。應注意到除非另外具體說明,否則在這些實施例中闡述的部件和步驟的相對布置、數(shù)字表達式和數(shù)值不限制本發(fā)明的范圍。同時,應當明白,為了便于描述,附圖中所示出的各個部分的尺寸并不是按照實際的比例關系繪制的。以下對至少一個示例性實施例的描述實際上僅僅是說明性的,決不作為對本發(fā)明及其應用或使用的任何限制。對于相關領域普通技術人員已知的技術、方法和設備可能不作詳細討論,但在適當情況下,所述技術、方法和設備應當被視為授權說明書的一部分。在這里示出和討論的所有示例中,任何具體值應被解釋為僅僅是示例性的,而不是作為限制。因此,示例性實施例的其它示例可以具有不同的值。應注意到相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在ー個附圖中被定義,則在隨后的附圖中不需要對其進行進ー步討論。
圖1為本發(fā)明的捜索方法的一個實施例的流程圖。如圖1所示,本發(fā)明的捜索方法包括S101.接收用戶輸入的請求關鍵詞。S102.根據(jù)所述請求關鍵詞從服務特征庫中提取與所述請求關鍵詞相關的特征關鍵詞,并提供給用戶以供用戶選擇。在本實施例中,所提取的特征關鍵詞為全部類別的特征關鍵詞。該步驟具體包括首先,計算用戶所輸入的請求關鍵詞與服務特征庫中的特征關鍵詞的關聯(lián)度;然后,判斷所計算的關聯(lián)度是否高于關聯(lián)閾值;最后根據(jù)判斷結果,將所有高于關聯(lián)閾值的特征關鍵詞從服務特征庫中提取。若存在多個高于關聯(lián)閾值的特征關鍵詞,則可以按照各自的相關度大小排列優(yōu)先順序。其中,所用到的關聯(lián)閾值是預先設定并且可以根據(jù)實際需要進行調整。關于關聯(lián)度的計算,可以通過計算所述請求關鍵詞和所述特征關鍵詞的字符相似度;也可以通過計算所述請求關鍵詞和所述特征關鍵詞的語意相似度。當然,也可以采用本領域公知的其他算法計算關聯(lián)度。其中,特征關鍵詞是根據(jù)數(shù)據(jù)庫的信息建立的。一般采用分詞技術、貝葉斯算法等方法,基于數(shù)據(jù)庫的信息建立特征關鍵詞。與采用PAGERANK技術的搜索方法不同,本發(fā)明的方法只提供系統(tǒng)看重的且能夠提供的服務信息,而不提供用戶輸入最多但系統(tǒng)又難以提供信息的捜索詞。例如,與“塘橋”有關的詞包括“塘橋鎮(zhèn)”、“塘橋公園”、“塘橋中學”、“塘橋街道”、“張家港塘橋”等多個詞語。但是數(shù)據(jù)庫信息中只有關于“塘橋公園”、“塘橋中學”的信息,則只建立“塘橋公園”和“塘橋中學”兩個特征關鍵詞。優(yōu)選地,根據(jù)數(shù)據(jù)類型建立特征關鍵詞的索引,并存儲在服務特征庫中。通過采用索引,便于提取和計算,滿足實時計算和實時提示的要求。S103.響應于用戶對特征關鍵詞的選擇,從信息數(shù)據(jù)庫中提取與所述特征關鍵詞相對應的信息,并將所示信息提供給用戶。當用戶未選擇所述特征關鍵詞吋,按照所述請求關鍵詞進行搜索。一般地,信息數(shù)據(jù)庫中的信息需要經(jīng)過預處理,即使是互聯(lián)網(wǎng)搜索引擎也是首先獲得互聯(lián)網(wǎng)的信息,之后進行各種處理。用戶搜索到的信息均是經(jīng)過處理后的信息,而不是實時的網(wǎng)上信息。其中,所述從信息數(shù)據(jù)庫中提取信息是根據(jù)與所述特征關鍵詞的綜合相關度進行信息提取。所述特征關鍵詞與信息的相關度的具體計算可以為首先,根據(jù)語意計算模型計算所述特征關鍵詞與信息的第一相關度alt)然后,根據(jù)信息日志記錄,計算所述特征關鍵詞與信息的第二相關度a2。由于第二相關度Ci2的計算考慮了用戶搜索的時間因素,可能存在這樣兩條信息,其通過語意計算模型得到的第一相關度a i數(shù)值相同,但在時間選擇上存在差異,則這兩條信息的第二相關度a 2就會不同。最后,根據(jù)所得到的第一相關度Ci1和第二相關度02計算出綜合相關度a,并存儲在特征服務庫中。綜合相關度的計算公式多種多樣,在ー個具體實施例中,可以采用如下計算公式a = (al+a2)/2。該計算可以是預先完成的,并將計算結果保存在特征服務庫中。當提取信息時可以直接從特征服務庫中調用相關度信息。本發(fā)明還包括當用戶選擇特征關鍵詞后,記錄該用戶所選擇的搜索結果,從而形成針對特征關鍵詞的熱點信息,用于在下次捜索時優(yōu)先提供該信息。另外,如果針對某個關鍵詞,某個企業(yè)有特殊的排名需求,但這個關鍵詞并沒有在該企業(yè)的標準說明中而存儲在該企業(yè)的附加信息中。此時系統(tǒng)可以自動設定從這些附加信息中提取特征關鍵詞,并提不給客戶。本發(fā)明的捜索方法可以應用于手機客戶端、手持設備、互聯(lián)網(wǎng)設備、語音信息服務座席等捜索弓I擎服務系統(tǒng)。此外,本發(fā)明的捜索方法還可應用到服務資源調度系統(tǒng)等方面,可以判別用戶信息需求的業(yè)務種類,井根據(jù)業(yè)務種類和當前信息服務的特點合理地調度后臺資源,使得后臺的服務能力最大化。本發(fā)明的捜索方法是基于領域文本挖掘和自然語言理解,把經(jīng)過整理的特征關鍵詞存放在服務特征庫中,當用戶在搜索框等類似的輸入接ロ輸入關鍵詞時,系統(tǒng)自動感知用戶的輸入,把合適的特征關鍵詞展現(xiàn)在捜索框旁邊的提示位置,供用戶選擇。特征關鍵詞的數(shù)目可以是ー個,也可以是多個。當有多個關鍵詞時,按照與請求關鍵詞的關聯(lián)度順序排列。此方法能夠有效節(jié)約用戶獲取目標信息的時間。圖2為本發(fā)明的捜索方法的另ー實施例的流程圖。如圖2所示,所述搜索方法包括S201.接收用戶輸入的請求關鍵詞;S202.根據(jù)所述請求關鍵詞從服務特征庫中提取至少ー個類別的特征關鍵詞,并提供給用戶以供用戶選擇。其中所述類別包括業(yè)務數(shù)據(jù)類別、用戶信息需求數(shù)據(jù)類別(例如,可以是用戶需求個性特征類別)、用戶環(huán)境數(shù)據(jù)類別、用戶信息需求時間數(shù)據(jù)類別和服務數(shù)據(jù)類別。其中,設定業(yè)務數(shù)據(jù)類別包括諸如系統(tǒng)的廣告等業(yè)務;設定用戶信息需求數(shù)據(jù)類別是考慮諸如老年人與兒童對相同關鍵詞的信息取向差別;設定用戶環(huán)境數(shù)據(jù)的類別是考慮與地理位置有關的搜索,或者系統(tǒng)感知到用戶的搜索請求與地理位置相關時,提供基于POI的信息服務,或者服務結果計算時考慮用戶所處的地理位置。設定時間因素類別是考慮信息需求和服務信息預時間的相關性,如信息的新舊程度、什么樣的信息適合什么時間播報、什么樣的信息適合第一時間告訴使用者等。設定服務數(shù)據(jù)類類別是考慮一個信息服務系統(tǒng)所專注的特定領域。例如,某個信息服務系統(tǒng)的服務是以提供餐飲信息為主,則其特定服務領域就是餐飲服務領域。當確定了服務領域,也就確定了這個領域的知識構成、問題表達、關鍵詞提煉方法。在實際應用中,既可以提供其中一個類別的特定關鍵詞,也可以提供多個類別的特定關鍵詞。S203.響應于用戶對特征關鍵詞的選擇,從信息數(shù)據(jù)庫中提取與所述特征關鍵詞相對應的信息,并將所述信息提供給用戶。該方法可用于多種類型的收費業(yè)務,可在滿足用戶基本的搜索需求的同時,還將業(yè)務相關領域的信息優(yōu)先提示給用戶。圖3為本發(fā)明的捜索方法的又一個實施例的流程圖。如圖3所示,該搜索方法包括S301.接收用戶輸入的請求關鍵詞;S302.根據(jù)所述請求關鍵詞從服務特征庫中提取特征關鍵詞,并提供給用戶以供用戶選擇。S303.響應于用戶對特征關鍵詞的選擇,從信息數(shù)據(jù)庫中提取與特征關鍵詞相對應的信息摘要并進行展示,供用戶選擇。在用戶輸入關鍵詞時,隨時捕捉請求關鍵詞的變化,把服務特征庫中的合適的特征關鍵詞及時展現(xiàn)在用戶輸入框附近的提示框中。可在展示特征關鍵詞的同時,展現(xiàn)信息的簡要內(nèi)容,優(yōu)選地,當存在多個特征關鍵詞時,展現(xiàn)排序為第一的特征關鍵詞所對應的信息的簡要內(nèi)容。此外,當信息數(shù)據(jù)庫中出現(xiàn)較重要的業(yè)務信息且該業(yè)務信息符合用戶信息需求的取向,則將該業(yè)務信息顯示在用戶輸入的提示位置,從而為用戶提供高質量的推送服務。信息的摘要可以通過合適的方式進行展示,例如當鼠 標移動到相應的關鍵詞或者信息分類ID上時就會展示一條完整信息的摘要、一個網(wǎng)頁、一段音樂或一段視頻。S304.響應于用戶對信息摘要的選擇,展示該信息的全部內(nèi)容。圖4為ー種捜索系統(tǒng)的結構圖。如圖4所示,包括搜索請求接收單元41、特征關鍵詞提取単元42、信息提取單元43和服務特征庫45。其中,搜索請求接收單元41用于接收用戶輸入的請求關鍵詞。特征關鍵詞提取單元42根據(jù)所接收的請求關鍵詞從服務特征庫45中提取特征關鍵詞,并提供給用戶以供用戶選擇。當用戶選擇該特征關鍵詞后,信息提取單元43響應于用戶對該特征關鍵詞的選擇,從存儲有信息數(shù)據(jù)的信息數(shù)據(jù)庫46中提取與該特征關鍵詞相對應的信息,并將所述信息提供給用戶。其中,特征關鍵詞是根據(jù)數(shù)據(jù)庫的信息建立的。一般是采用分詞技術、貝葉斯算法等方法,基于數(shù)據(jù)庫的信息建立特征關鍵詞。優(yōu)選地,根據(jù)數(shù)據(jù)類型建立特征關鍵詞的索弓I,并存儲在服務特征庫中。通過采用索引,便于提取和計算,滿足實時計算和實時提示的要求。此外,當用戶未選擇所推薦的特征關鍵詞時,信息提取單元43按照用戶的請求關鍵詞進行常規(guī)搜索。圖5為圖4中的特征關鍵詞提取単元42的結構示意圖。如圖5所示,特征關鍵詞提取單元42包括關聯(lián)度計算模塊421、關聯(lián)度判斷模塊422和關聯(lián)度判斷模塊422。首先由關聯(lián)度計算模塊421計算用戶輸入的請求關鍵詞與服務特征庫45中的特征關鍵詞的關聯(lián)度。然后,關聯(lián)度判斷模塊422判斷計算得到的關聯(lián)度是否高于預先設定的關聯(lián)閾值。最后,由特征關鍵詞提取ネ旲塊423將所有聞于關聯(lián)閾值的特征關鍵詞從服務特征庫中提取。若通過判斷,存在多個高于關聯(lián)閾值的特征關鍵詞,則可以按照各自的相關度的大小設定特征關鍵詞的排列先后順序。其中,所用到的關聯(lián)閾值是預先設定并且可以根據(jù)實際需要進行調整。其中,關聯(lián)度計算模塊421所進行的關聯(lián)度的計算,既可以通過計算所述請求關鍵詞和所述特征關鍵詞的字符相似度,也可以通過計算所述請求關鍵詞和所述特征關鍵詞的語意相似度。當然,還可以根據(jù)需要按照其他公知方法進行關聯(lián)度的計算。圖6為圖5中的關聯(lián)度計算模塊的結構示意圖。關聯(lián)度計算模塊421用于計算所述請求關鍵詞與所述服務特征庫中的特征關鍵詞的關聯(lián)度,并將所計算的關聯(lián)度存儲在服務特征庫中。如圖6所示,關聯(lián)度計算模塊421包括字符相似度計算子模塊4211和語意相似度計算子模塊4212。其中,字符相似度計算子模塊4211可用于計算所述請求關鍵詞和所述特征關鍵詞的字符相似度;語意相似度計算子模塊4212可用于計算所述請求關鍵詞和所述特征關鍵詞的語意相似度。關聯(lián)度計算模塊421可以采用字符相似度或語意相似度兩者之一來確定請求關鍵詞與特征關鍵詞的關聯(lián)度。關聯(lián)度計算模塊421也可以結合字符相似度和語意相似度兩者來確定請求關鍵詞與特征關鍵詞的關聯(lián)度。例如,可以用字符相似度和語意相似度中的最大值來表示關聯(lián)度,也可以用字符相似度和語意相似度兩者的加權平均值來表示關聯(lián)度。需要說明的是,根據(jù)實際需要,關聯(lián)度計算模塊也可只包括字符相似度計算子模塊4211或者語意相似度計算子模塊4212。當然,也可以包括采用其他算法的其他相似度計算子模塊進行計算。圖7為搜索系統(tǒng)的另一個實施例的結構示意圖。如圖7所示,包括搜索請求接收単元41、特征關鍵詞提取単元42、信息提取單元43、信息相關度計算單元44和服務特征庫45。與圖4所示的捜索系統(tǒng)相比,不同之處在于増加了信息相關度計算單元44。信息相關度計算單元44用于計算特征關鍵詞與信息的相關度,并將相關度存儲在服務特征庫75中。圖8為圖1中的信息相關度計算單元44的結構示意圖。如圖8所示,信息相關度計算單元44包括第一相關度計算模塊441和第二相關度計算模塊442。首先,第一相關度計算模塊441根據(jù)語意計算模型計算所述特征關鍵詞與信息的第一相關度O1 ;然后,第二相關度計算模塊442從服務日志數(shù)據(jù)庫中調取信息日志記錄,進行特征關鍵詞與信息的第二相關度a 2的計算。由于第二相關度Ci2的計算考慮了用戶捜索的時間因素,可能存在這樣兩條信息,其通過語意計算模型得到的第一相關度a !數(shù)值相同,但在時間選擇上存在差異,則這兩條信息的第二相關度a2就會不同。服務日志數(shù)據(jù)庫還可用于當用戶選擇特征關鍵詞后,記錄該用戶所選擇的搜索結果,從而形成針對特征關鍵詞的熱點信息,用于在下次捜索時優(yōu)先提供該信息。最后,綜合相關度計算模塊443根據(jù)所得到的第一相關度h和第二相關度a2計算出綜合相關度a,并將綜合相關度的數(shù)值存儲在特征服務庫中。綜合相關度的計算公式多種多樣,在ー個具體實施例中,a =(a彳a 2)/2。其中,所述特征關鍵詞與信息的第一相關度、第二相關度和綜合相關度的計算是預先完成并存儲在服務特征庫中,供信息提取單元直接調用。圖9為本發(fā)明的一種搜索系統(tǒng)的又一個實施例的結構示意圖。如圖9所示,捜索系統(tǒng)包括搜索請求接收單元41、特征關鍵詞提取単元42、信息提取単元43、信息相關度計算單元44和服務數(shù)據(jù)特征庫451。與圖7所示的捜索系統(tǒng)相比,不同之處在于設有服務數(shù)據(jù)特征庫451,而服務數(shù)據(jù)特征庫451是ー個類別特征庫。其中,服務數(shù)據(jù)特征庫451主要用于存儲特定服務領域的特征關鍵詞。所謂特定服務領域是指ー個信息服務系統(tǒng)所專注的服務領域。例如,某個信息服務系統(tǒng)的服務是以提供餐飲信息為主,則其特定服務領域就是餐飲服務領域。當確定了這個領域,也就確定了這個領域的知識構成、問題表達、關鍵詞提煉方法。類別特征庫不限于服務數(shù)據(jù)特征庫451,還可包括業(yè)務數(shù)據(jù)特征庫、用戶信息需求數(shù)據(jù)特征庫(例如,可以是用戶需求個性特征庫)、用戶環(huán)境數(shù)據(jù)特征庫和用戶信息需求時間數(shù)據(jù)特征庫。其中,業(yè)務數(shù)據(jù)類別包括諸如系統(tǒng)的廣告等業(yè)務;設定用戶信息需求數(shù)據(jù)類別是考慮諸如老年人與兒童對相同關鍵詞的信息取向差別;設定用戶環(huán)境數(shù)據(jù)的類別是考慮與地理位置有關的搜索,或者系統(tǒng)感知到用戶的搜索請求與地理位置相關時,提供基于POI的信息服務,或者服務結果計算時考慮用戶所處的地理位置。設定時間因素類別是考慮信息需求和服務信息預時間的相關性,如信息的新舊程度、什么樣的信息適合什么時間播報、什么樣的信息適合第一時間告訴使用者等。設定服務數(shù)據(jù)類類別是考慮一個信息服務系統(tǒng)所專注的特定領域。例如,某個信息服務系統(tǒng)的服務是以提供餐飲信息為主,則其特定服務領域就是餐飲服務領域。當確定了服務領域,也就確定了這個領域的知識構成、問題表達、關鍵詞提煉方法。在實際應用中,既可以提供其中一個類別的特定關鍵詞,也可以提供多個類別的特定關鍵詞。例如,現(xiàn)存在四個特征關鍵詞“塘橋第一小學”、“塘橋中學”、“塘橋公園”和“塘橋飯店”。利用用戶信息需求時間數(shù)據(jù)特征庫,可在夜間檢索期將“塘橋飯店”優(yōu)先提供給用戶。利用用戶環(huán)境數(shù)據(jù)特征庫,當感知用戶為外地用戶時,可將“塘橋公園”優(yōu)先提示給用戶。利用用戶信息需求數(shù)據(jù)特征庫,根據(jù)用戶的年齡不同,調整“塘橋第一小學”與“塘橋中學”的提示順序。圖10示出了本發(fā)明的搜索系統(tǒng)的又一個實施例的結構圖。如圖8所示,該搜索系統(tǒng)包括搜索請求接收單元41、特征關鍵詞提取單元42、信息相關度計算單元44、服務特征庫45和信息摘要提取單元47。其中,搜索請求接收單元41、特征關鍵詞提取単元42、信息相關度計算單元44、月艮務特征庫45、信息數(shù)據(jù)庫46與圖7所示的系統(tǒng)的相關單元相同。不同之處在于増加了信息摘要提取單元47。信息摘要提取單元47用于根據(jù)特征關鍵詞調用存儲在服務特征庫45中的信息與特征關鍵詞的相關度,從信息數(shù)據(jù)庫46中提取與相應的信息摘要并進行展示。優(yōu)選地,當存在多個特征關鍵詞時,展現(xiàn)排序為第一的特征關鍵詞所對應的信息的簡要內(nèi)容。此外,當信息數(shù)據(jù)庫中出現(xiàn)較重要的業(yè)務信息且該業(yè)務信息符合用戶信息需求的取向,則將該業(yè)務信息顯示在用戶輸入的提示位置,從而為用戶提供高質量的推送服務。摘要可以通過合適的方式進行展示,例如當鼠標移動到相應的關鍵詞或者信息分類ID上時就會展示一條完整信息的摘要、ー個網(wǎng)頁、一段音樂或一段視頻。雖然已經(jīng)通過示例對本發(fā)明的ー些特定實施例進行了詳細說明,但是本領域的技術人員應該理解,以上示例僅是為了進行說明,而不是為了限制本發(fā)明的范圍。本領域的技術人員應該理解,可在不脫離本發(fā)明的范圍和精神的情況下,對以上實施例進行修改。本發(fā)明的范圍由所附權利要求來限定。
權利要求
1.一種搜索方法,包括5101.接收用戶輸入的請求關鍵詞;5102.根據(jù)所述請求關鍵詞從服務特征庫中提取與所述請求關鍵詞相關的特征關鍵詞,并提供給用戶以供用戶選擇;5103.響應于用戶對特征關鍵詞的選擇,從信息數(shù)據(jù)庫中提取與所選特征關鍵詞相對應的信息,并將所提取的信息提供給用戶。
2.如權利要求1所述的搜索方法,其中步驟S102包括計算所述請求關鍵詞與所述服務特征庫中的特征關鍵詞的關聯(lián)度;判斷所述關聯(lián)度是否高于關聯(lián)閾值;從服務特征庫中提取高于關聯(lián)閾值的特征關鍵詞。
3.如權利要求2所述的搜索方法,其中所述關聯(lián)度的計算是計算所述請求關鍵詞和所述特征關鍵詞的字符相似度和/或語意相似度。
4.如權利要求1所述的搜索方法,其中步驟S103還包括計算所述特征關鍵詞與信息的相關度。
5.如權利要求4所述的搜索方法,其中計算所述特征關鍵詞與信息的相關度的步驟包括根據(jù)語意計算模型計算所述特征關鍵詞與信息的第一相關度;根據(jù)信息日志記錄計算所述特征關鍵詞與信息的第二相關度;根據(jù)所述特征關鍵詞與信息的第一相關度和第二相關度計算出綜合相關度。
6.如權利要求4所述的搜索方法,其中在步驟S103中,所述從信息數(shù)據(jù)庫中提取與所述特征關鍵詞相對應的信息是根據(jù)所述特征關鍵詞與信息的相關度進行的。
7.如權利要求1所述的搜索方法,其中在步驟S102中,所述特征關鍵詞為針對全部類別或者至少一個類別的特征關鍵詞。
8.如權利要求7所述的搜索方法,其中所述類別包括業(yè)務數(shù)據(jù)類別、用戶信息需求數(shù)據(jù)類別、用戶環(huán)境數(shù)據(jù)類別、用戶信息需求時間數(shù)據(jù)類別和服務數(shù)據(jù)類別。
9.如權利要求1所述的搜索方法,還包括展現(xiàn)所述特征關鍵詞的對應信息的內(nèi)容摘要。
10.一種搜索系統(tǒng),包括搜索請求接收單元,用于接收用戶輸入的請求關鍵詞;服務特征庫,用于存儲特征關鍵詞;特征關鍵詞提取單元,用于根據(jù)所述請求關鍵詞從服務特征庫中提取相關的特征關鍵詞,并提供給用戶以供用戶選擇;信息提取單元,用于響應于用戶對特征關鍵詞的選擇,從信息數(shù)據(jù)庫中提取與所選特征關鍵詞相對應的信息,并將所提取的信息提供給用戶。
11.如權利要求10所述的搜索系統(tǒng),其中所述特征關鍵詞提取單元包括關聯(lián)度計算模塊,用于計算所述請求關鍵詞與所述服務特征庫中的特征關鍵詞的關聯(lián)度;關聯(lián)度判斷模塊,用于判斷所述關聯(lián)度是否高于關聯(lián)閾值;特征關鍵詞提取模塊,用于從服務特征庫中提取高于關聯(lián)閾值的特征關鍵詞。
12.如權利要求11所述的搜索系統(tǒng),其中所述關聯(lián)度計算模塊包括 字符相似度計算子模塊,用于計算所述請求關鍵詞和所述特征關鍵詞的字符相似度;和/或 語意相似度計算子模塊,用于計算所述請求關鍵詞和所述特征關鍵詞的語意相似度。
13.如權利要求12所述的搜索系統(tǒng),還包括信息相關度計算單元,用于計算所述特征關鍵詞與信息的相關度,并將所述相關度存儲于所述服務特征庫中, 其中,所述信息相關度計算單元包括 第一相關度計算模塊,用于根據(jù)語意計算模型計算所述特征關鍵詞與信息的第一相關度; 第二相關度計算模塊,用于根據(jù)信息日志記錄,計算所述特征關鍵詞與信息的第二相關度; 綜合相關度計算模塊,用于根據(jù)所述特征關鍵詞與信息的第一相關度和第二相關度計算綜合相關度。
14.如權利要求13所述的搜索系統(tǒng),其中所述信息提取單元從所述信息數(shù)據(jù)庫中提取與所述特征關鍵詞對應的信息是根據(jù)所述特征關鍵詞與信息的相關度進行的。
15.如權利要求10所述的搜索系統(tǒng),還包括 信息摘要提取單元,用于從信息數(shù)據(jù)庫中提取與所述特征關鍵詞相對應的信息摘要并進行展示。
全文摘要
本發(fā)明公開了一種搜索方法和搜索系統(tǒng)。該搜索方法包括接收用戶輸入的請求關鍵詞;根據(jù)所述請求關鍵詞從服務特征庫中提取特征關鍵詞,并提供給用戶以供用戶選擇;響應于對特征關鍵詞的選擇,從信息數(shù)據(jù)庫中提取與所述特征關鍵詞相對應的信息,并將所提取的信息提供給用戶。采用本發(fā)明的技術方案,能夠根據(jù)用戶的請求關鍵詞自動提供更為準確合理的特征關鍵詞。如果用戶選擇特征關鍵詞進行搜索,可以方便快捷地找到目標信息,避免逐條翻頁查找信息,有效節(jié)約了用戶的搜索時間。
文檔編號G06F17/30GK103020049SQ20111027840
公開日2013年4月3日 申請日期2011年9月20日 優(yōu)先權日2011年9月20日
發(fā)明者楊震, 俞惠華, 陳正文, 沈利鍔 申請人:中國電信股份有限公司