專利名稱:一種搜索引擎系統(tǒng)的搜索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種搜索引擎技術(shù),特別涉及一種解決用戶提交基于自然語言搜索請求的搜索方法。
背景技術(shù):
互聯(lián)網(wǎng)的出現(xiàn)給人們帶來了前所未有的信息量,它提供了即時豐富的信息,成為人與人各種溝通的平臺,已經(jīng)極為深層地影響著現(xiàn)代人的生活。但隨著網(wǎng)站數(shù)量和內(nèi)容的急增,互聯(lián)網(wǎng)就像是沒有目錄的巨大百科全書,讓人們無法找尋自己想要的信息。而搜索是互聯(lián)網(wǎng)最顯著的特點之一,是僅次于郵件的第二大互聯(lián)網(wǎng)應(yīng)用。搜索引擎的出現(xiàn),為互聯(lián)網(wǎng)這本百科全書加上了目錄和索引。不論我們想了解任何知識,我們都可以嘗試通過搜索引擎從互聯(lián)網(wǎng)中尋找答案。
“第一代搜索引擎”依靠人工分揀的分類目錄搜索,以雅虎為標(biāo)志;“第二代搜索引擎”依靠機器抓取,建立在超鏈分析基礎(chǔ)上的網(wǎng)頁搜索,以Google和百度為代表,其信息量大、更新及時、但返回信息過多,可能有很多無關(guān)信息。根據(jù)搜索引擎營銷公司iProspect的研究顯示,超過81%的使用者會在看完前三頁之前就停止閱讀搜索結(jié)果。可見人們對搜索的“海量”需求已逐步向“精準(zhǔn)”轉(zhuǎn)移。此外,多數(shù)用戶很難通過一兩個詞精確描述所查內(nèi)容,即使對同一個詞,用戶也會有不同的需求,比如“綠茶”,人們要的可能是茶文化、電影、化妝品或其他。同時,當(dāng)人們提交自然語言的搜索請求時,大多數(shù)搜索引擎返回的結(jié)果是沒有找到相匹配的記錄。
由于以上原因,各大公司和研究機構(gòu)紛紛推出“第三代搜索引擎技術(shù)”甚至是“第四代搜索引擎技術(shù)”。這些概念很多都是關(guān)鍵詞搜索加上了一些分類搜索定義,引擎根據(jù)用戶的查詢內(nèi)容,智能展開多組相關(guān)的主題,幫助用戶找到相關(guān)搜索結(jié)果,比如中國搜索和搜狗等。而有些采用中文自動分類、自動聚類等技術(shù),區(qū)域智能識別技術(shù),或者是根據(jù)用戶的歷史搜索記錄來分析用戶的領(lǐng)域,從而加強搜索引擎的查詢能力,比如Google等。
而未來真正意義上的智能搜索引擎,是能識別任何形式的自然語言檢索請求,以最快的速度返回最精確的答案集合。未來的門戶,是基于智能搜索引擎以及在線應(yīng)用程序的個性化的個人門戶。
技術(shù)上,目前的搜索引擎對用戶提交的關(guān)鍵詞,由網(wǎng)絡(luò)服務(wù)器將查詢發(fā)送到索引服務(wù)器。索引服務(wù)器所包含的內(nèi)容與書本末尾的索引目錄相似,即說明哪些網(wǎng)頁包含與查詢匹配的文字。查詢傳輸?shù)轿臋n服務(wù)器,由后者實際檢索所存儲的文檔。然后,生成描述每個搜索結(jié)果的摘錄。通常這些查詢以及結(jié)果摘錄存放于高速緩存中,搜索引擎瞬間即可返回用戶需要的搜索結(jié)果。
Google使用PageRankTM技術(shù)檢查整個網(wǎng)絡(luò)鏈接結(jié)構(gòu),并確定哪些網(wǎng)頁重要性最高。然后進行超文本匹配分析,以確定哪些網(wǎng)頁與正在執(zhí)行的特定搜索相關(guān)。在綜合考慮整體重要性以及與特定查詢的相關(guān)性之后,Google可以將最相關(guān)最可靠的搜索結(jié)果放在首位。
百度以及新浪的愛問搜索都相繼推出了“百度知道”以及“新浪知識人”,采用了問答聚合的方式,簡單的說就是各種專業(yè)論壇的集合。他們的目的就是解決用戶在普通搜索引擎上提交自然語言的搜索請求而得不到答案的問題。
但是,上述的現(xiàn)有的搜索引擎仍然存在以下問題
一 用戶局限在互聯(lián)網(wǎng)上提交自己的搜索引擎。這給其他同樣需要獲得問題答案的非互聯(lián)網(wǎng)用戶,或者是非在線的互聯(lián)網(wǎng)用戶帶來不便。目前出現(xiàn)的一些非互聯(lián)網(wǎng)搜索技術(shù)只能解決局限領(lǐng)域的部分問題,而且,需要用戶提供固定的搜索請求格式。
二 普通搜索引擎無法正確理解用戶最習(xí)慣的自然語言的搜索請求。返回的結(jié)果絕大多數(shù)是無記錄或者根本不是用戶想要的搜索結(jié)果。
三 對用戶提交的搜索請求,分詞處理后,返回大量的信息。這些信息已經(jīng)被搜索引擎優(yōu)化過,但是仍然有大量的搜索結(jié)果是重復(fù)的,搜索結(jié)果在本次搜索處理上沒有任何關(guān)聯(lián)。用戶也不能得到一個最佳的答案和排序方式。
四 對于自然語言問題的解答,現(xiàn)有技術(shù)通常在各種論壇上提交問題,等待用戶解答?;蛘呦笊鲜鲂吕酥R人,百度知道一樣,采用問答聚合的方式。這類方式偏重于知識的收集,不能滿足用戶即時獲得答案的需要。由于用戶回答問題是自由的,這種方式對問題的答案有很大的隨意性。最重要的是,問題的提出到問題的回答的時間是不固定的。也就是說,仍然存在大量問題沒有人及時回答或者是從來就沒有人回答。
發(fā)明內(nèi)容
本發(fā)明的目的之一就是讓用戶從不同方式提交,采用自然語言形式,任何領(lǐng)域的搜索請求成為可能。
本發(fā)明的另一目的是提高搜索結(jié)果的準(zhǔn)確性以及搜索結(jié)果的排序合理性。
本發(fā)明的再一目的是提高對自然語言搜索請求的處理速度,在預(yù)定的時間內(nèi)回答用戶的問題。
為了實現(xiàn)以上目的,本發(fā)明的搜索引擎系統(tǒng)的搜索方法包括以下步驟(一) 接收用戶從不同方式提交,采用自然語言形式,任何領(lǐng)域的搜索請求;(二) 對用戶搜索請求進行預(yù)搜索處理,形成預(yù)搜索結(jié)果記錄集合;(三) 對預(yù)搜索結(jié)果的各條記錄進行投票處理,計算每條記錄的各自投票得分,形成確認(rèn)搜索結(jié)果記錄集合;(四) 按照規(guī)則將確認(rèn)后搜索結(jié)果排序返回給用戶;(五) 儲存并發(fā)布本次搜索請求的用戶請求與確認(rèn)后搜索結(jié)果,形成搜索歷史數(shù)據(jù)庫。
其中,上述步驟(一)中接收的請求可以是來自用戶發(fā)送短信形式的搜索請求。
其中,上述步驟(一)中的接收的請求可以是來自用戶通過語音方式提交的搜索請求。
其中,上述步驟(一)中的接收的請求可以是用戶通過互聯(lián)網(wǎng)網(wǎng)頁提交的搜索請求。
其中,上述步驟(二)中的預(yù)搜索處理包括以下步驟設(shè)定一個問題相關(guān)度閥值,計算用戶提交的搜索請求問題與歷史搜索數(shù)據(jù)庫中的問題的相關(guān)度,將相關(guān)度大于設(shè)定閥值的搜索結(jié)果從歷史搜索數(shù)據(jù)庫取出,形成預(yù)搜索結(jié)果記錄集合。
其中,上述步驟(二)中的預(yù)搜索處理包括對用戶搜索請求進行分類處理的步驟。這個分類可以是由專門的分類人員進行分類,也可以是由程序進行自動的分類處理。專門的分類人員可以是預(yù)先注冊的在線分類用戶。分類過程采用投票制度,在規(guī)定的時間內(nèi),達到預(yù)先定義的票數(shù),則分類確定。同時,更新正確分類人員的分類積分。
其中,上述步驟(二)中的的預(yù)搜索處理可以是向互聯(lián)網(wǎng)搜索引擎提交搜索并返回預(yù)搜索結(jié)果。可以向多個不同的搜索引擎提交搜索請求,將搜索結(jié)果形成一個新的搜索結(jié)果集合。
其中,上述步驟(二)中的預(yù)搜索處理也可以是向預(yù)先注冊的專家團提交查詢,由專家團解答,并返回專家團各自的推薦結(jié)果。這些專家團可以是通過即時溝通軟件在線的注冊用戶,也可以是真正的各個行業(yè)類別的專家。這些專家團人員不受地理位置和時間的限制,只要他們能和服務(wù)器保持即時的聯(lián)系。專家團成員在預(yù)定的時間內(nèi)返回各自搜索結(jié)果。
其中,上述步驟(三)的投票處理可以是預(yù)搜索結(jié)果記錄條目之間的自動投票處理。預(yù)搜索結(jié)果記錄的每個條目包括答案概要,答案頁面超級鏈接,該頁面的標(biāo)題。投票程序?qū)Υ鸢父乓鸢疙撁娉夋溄?,該頁面的?biāo)題進行分析,比如對每個答案概要,對答案頁面標(biāo)題進行分詞處理,然后對這些分詞結(jié)果進行投票。由投票結(jié)果,結(jié)合給出答案的時間,產(chǎn)生該答案的綜合投票得分。并且,根據(jù)綜合得分,計算出專家團成員的本次搜索積分。
其中,上述步驟(三)的投票處理可以是預(yù)先注冊的投票人員人工進行投票處理。這些投票人員預(yù)先在系統(tǒng)注冊,并有自己的領(lǐng)域分類。在限定的時間內(nèi),結(jié)合來自用戶的搜索請求問題,預(yù)搜索結(jié)果進行投票,由投票結(jié)果,結(jié)合給出答案的時間,產(chǎn)生該答案的綜合投票得分。并且,根據(jù)綜合得分,計算出專家團成員的本次搜索積分以及本次投票人員的投票積分。
其中,上述步驟(四)的排列規(guī)則可以是按照投票結(jié)果得分由高至低排列。
其中,上述步驟(四)的排列規(guī)則也可以是對投票結(jié)果進行分類,按照類別進行排列。答案中有很多相同或者基本相同的答案,用戶不希望看到一樣的答案全部出現(xiàn)在一個頁面上,所以可以按照一定的規(guī)則將結(jié)果進行分類。比如將結(jié)果分按照排序得分分為10個類,用戶點擊每個得分類后展開當(dāng)前得分類下所有答案。
其中,上述步驟(四)的排列規(guī)則是僅僅返回給用戶得分最高的最佳答案。如果用戶的搜索請求來自短信或者是電話,我們只需要返回給用戶得分最高的最佳答案。
其中,上述步驟(五)還包括以下步驟用戶可以對發(fā)布在互聯(lián)網(wǎng)頁面上的搜索答案進行重新分類或者投票,或者其他方式,如短信,電話確認(rèn)給搜索答案投票,也可以改變搜索答案的分類信息。搜索引擎系統(tǒng)記錄用戶的動作,更新歷史搜索數(shù)據(jù)庫的分類以及投票信息。
通過以上技術(shù)方案,首先,我們讓用戶從不同方式提交,采用自然語言形式,任何領(lǐng)域的搜索請求成為可能。用戶不必局限于搜索某個固定的領(lǐng)域,也不需要提交固定的搜索請求格式。
其次,用戶得到的搜索結(jié)果是準(zhǔn)確的,不再是海量的搜索結(jié)果,搜索結(jié)果已經(jīng)被處理過,重復(fù)的搜索結(jié)果將不再顯示給用戶。用戶能得到一個最佳的排序方式,甚至得到一個最簡短的最佳答案。
最后,搜索引擎不局限于知識的搜集和問題的聚合,系統(tǒng)提高了對自然語言搜索請求的處理速度,對于每一個搜索請求,我們都在限定的時間內(nèi)回答。隨著歷史搜索數(shù)據(jù)庫的增加,這個速度將越來越快。
圖1為本發(fā)明的總體流程圖。
具體實施例方式
實施例一用戶通過短信提交搜索請求,搜索歷史庫,人工進行問題分類,由專家團回答,程序自動對搜索答案投票,返回用戶最佳答案。具體步驟如下接收用戶來自短信的搜索請求問題A;將A提交到歷史搜索數(shù)據(jù)庫。設(shè)定一個問題相關(guān)度閥值,比如90%,計算用戶提交的搜索請求問題A與歷史搜索數(shù)據(jù)庫中的問題記錄的相關(guān)度,若存在與A的相關(guān)度大于設(shè)定閥值90%的記錄,則從歷史搜索數(shù)據(jù)庫取出搜索答案,直接形成預(yù)搜索結(jié)果記錄集合B,直接轉(zhuǎn)入到答案處理中心。
若不存在與A的相關(guān)度大于設(shè)定閥值90%的記錄,則進行人工的問題分類。
問題分類表預(yù)先定義。問題分類由專門的分類人員進行分類。這些專門的分類人員是預(yù)先注冊的在線問題分類用戶。我們設(shè)定很多的問題分類投票室,將進入每個問題分類投票室的人員限定在20人,分類過程采用投票制度,在規(guī)定的時間,比如1分鐘內(nèi),如果某個分類類別達預(yù)先設(shè)定的2票,則關(guān)閉投票,該問題分類確定,將問題A以及分類類別C交給下一步處理。同時,將上述投票正確的注冊的分類人員的分類積分進行更新。
根據(jù)問題分類類別C,將問題A發(fā)送到預(yù)先注冊的C類別的專家團成員,由這些專家團成員解答。這些專家團已經(jīng)在搜索引擎系統(tǒng)的專家團數(shù)據(jù)庫注冊,他們可以回答C類別的問題。這些成員可以是通過即時溝通軟件在線的注冊用戶,也可以是真正的各個行業(yè)類別的專家。這些人員不受地理位置和時間的限制,他們能和服務(wù)器保持即時的聯(lián)系。
對于短信搜索請求,用戶希望返回的結(jié)果越簡短越好。我們限定專家團成員回答問題的答案的格式為70漢字以內(nèi)的答案概要,答案詳情頁面的超級鏈接,該頁面的標(biāo)題。其中后兩項為非必選項。第一項如果答案確實超過70字,可以適當(dāng)放寬限制。
問題分類表中我們預(yù)先定義每個類別的搜索返回時間。對短信問題A,根據(jù)它的分類,我們預(yù)定C類問題的搜索返回時間是2分鐘。在2分鐘內(nèi),將專家團成員的答案D1,D2,D3,直到Dn的答案集合D收集到答案處理中心。
答案處理中心的任務(wù)就是確定最佳答案,它由程序自動投票計算確定。若從歷史搜索數(shù)據(jù)庫中直接形成預(yù)搜索結(jié)果記錄集合B,則將B等同于D。首先對答案集合D的每一條答案記錄Dn的70字內(nèi)的答案概要進行分詞處理,形成n條記錄的分詞表,然后n個分詞表相互之間進行投票,由投票結(jié)果,結(jié)合給出答案的時間,產(chǎn)生該答案記錄的綜合投票得分。并且,根據(jù)綜合得分,計算出專家團成員的本次搜索積分,將專家團成員的搜索積分進行更新。
答案返回程序提取得分最高的最佳答案E,將E通過短信返回給用戶。
將本次搜索的搜索請求問題A,問題分類類別C,最佳答案E,答案為E的專家信息,回答問題時間,投票分?jǐn)?shù)存入歷史搜索數(shù)據(jù)庫。并且,將這些信息發(fā)布在互聯(lián)網(wǎng)站上,提供給瀏覽用戶進一步確定分類和投票的功能。搜索引擎系統(tǒng)記錄用戶的動作,并更新歷史搜索數(shù)據(jù)庫信息。
若短信用戶對搜索答案E進行確認(rèn),將歷史搜索數(shù)據(jù)庫中答案的投票得分以及分類信息更新。
實施例二接收用戶打電話的搜索請求,搜索歷史庫,人工進行問題分類,由專家團回答,形成預(yù)搜索結(jié)果,人工投票,返回精確結(jié)果。
接收用戶來自電話的搜索請求問題AY;將用戶的語音搜索請求轉(zhuǎn)換為文字A2,將A2提交到歷史搜索數(shù)據(jù)庫。設(shè)定一個問題相關(guān)度閥值,比如90%,計算用戶提交的搜索請求問題A2與歷史搜索數(shù)據(jù)庫中的問題記錄的相關(guān)度,若存在與A2的相關(guān)度大于設(shè)定閥值90%的記錄,則從歷史搜索數(shù)據(jù)庫取出搜索答案,形成預(yù)搜索結(jié)果記錄集合B2。
若不存在與A2的相關(guān)度大于設(shè)定閥值90%的記錄,則進行人工的分類。
問題分類表預(yù)先定義。問題分類由專門的分類人員進行分類。這些專門的分類人員是預(yù)先注冊的在線分類用戶。我們設(shè)定很多的問題分類投票室,將進入每個問題分類投票室的人員限定在20人,問題分類過程采用投票制度,在規(guī)定的時間,比如20秒內(nèi),如果某個分類類別達預(yù)先設(shè)定的2票,則關(guān)閉投票,該問題分類確定,將問題A2以及分類類別C2交給下一步處理。同時,將上述投票正確的注冊的分類人員的分類積分進行更新。
根據(jù)問題分類類別C2,將問題A2發(fā)送到預(yù)先注冊的C2類別的專家團成員,由這些專家團成員解答。這些專家團已經(jīng)在搜索引擎系統(tǒng)的專家團數(shù)據(jù)庫注冊,他們可以回答C2類別的問題。這些成員可以是通過即時溝通軟件在線的注冊用戶,也可以是真正的各個行業(yè)類別的專家。這些人員不受地理位置和時間的限制,他們能和服務(wù)器保持即時的聯(lián)系。
對于電話搜索請求,用戶希望返回的時間越快越好,結(jié)果越簡短越好。我們限定專家團成員回答問題的答案的格式為100漢字以內(nèi)的答案概要,答案詳情頁面的超級鏈接,該頁面的標(biāo)題。其中后兩項為非必選項。第一項如果答案確實超過100字,可以適當(dāng)放寬限制。
問題分類表中我們預(yù)先定義每個類別的搜索返回時間。對來自電話的問題A2,根據(jù)它的分類,我們預(yù)定C2類問題的搜索返回時間是1分鐘。在1分鐘內(nèi),將專家團成員的答案DD1,DD2,DD3,直到DDn的答案集合DD收集到答案處理中心。
答案處理中心的任務(wù)就是確定最佳答案,它由人工投票確定。若從歷史搜索數(shù)據(jù)庫中直接形成預(yù)搜索結(jié)果記錄集合B2,則將B等同于DD。這些專門的答案投票人員是預(yù)先注冊的在線答案投票用戶。我們設(shè)定各個類別的答案確定投票室。與問題分類投票室不一樣,我們設(shè)定進入每個答案確定投票室的人數(shù)的下限為10人,若某個投票室的人數(shù)不足10人,則將由專人進入該投票室進行問題的投票審核。在規(guī)定的時間內(nèi),比如1分鐘內(nèi),關(guān)閉投票,計算出答案集合DD的每條記錄的投票得分。由投票得分結(jié)果,結(jié)合給出答案的時間,產(chǎn)生該答案記錄的綜合投票得分。并且,根據(jù)綜合得分,計算出專家團成員的本次搜索積分,將專家團成員的搜索積分進行更新。同時,將注冊的答案確定投票人員的積分進行更新。
答案返回程序提取得分最高的最佳答案E2,將E2通過語音返回給搜索用戶。
將本次搜索的搜索請求問題A2,問題分類類別C2,最佳答案E2,答案為E2的專家信息,回答問題時間,投票分?jǐn)?shù)存入歷史搜索數(shù)據(jù)庫。并且,將這些信息發(fā)布在互聯(lián)網(wǎng)站上,提供給瀏覽用戶進一步確定分類和投票的功能。搜索引擎系統(tǒng)記錄用戶的動作,并更新歷史搜索數(shù)據(jù)庫信息。
若打電話提交搜索的用戶對搜索答案E2進行確認(rèn),將歷史搜索數(shù)據(jù)庫中答案的投票得分以及分類信息更新。
實施例三具體步驟如下用戶在互聯(lián)網(wǎng)站的搜索頁面輸入搜索請求問題A3;將A3提交到歷史搜索數(shù)據(jù)庫。設(shè)定問題相關(guān)度閥值,比如80%,計算用戶提交的搜索請求問題A3與歷史搜索數(shù)據(jù)庫中的問題記錄的相關(guān)度,若存在與A3的相關(guān)度大于設(shè)定閥值80%的記錄,則從歷史搜索數(shù)據(jù)庫取出搜索答案,形成預(yù)搜索結(jié)果記錄集合B3。
若不存在與A3的相關(guān)度大于設(shè)定閥值80%的記錄,則進行自動的問題分類。根據(jù)用戶提交的關(guān)鍵詞,搜索問題分類數(shù)據(jù)庫,首先將問題分為搜索網(wǎng)頁,圖片,MP3,新聞,交通,地圖,軟件,職位,購物,生活,天氣,綜合等搜索大類,如果不確定,分為綜合大類。
根據(jù)問題分類類別C3,將問題A3發(fā)送到預(yù)先定義的C3類別的互聯(lián)網(wǎng)搜索引擎,由這些專業(yè)搜索引擎形成預(yù)搜索結(jié)果集合DE。我們也可以從不同的搜索引擎處分別取出一定數(shù)量的搜索結(jié)果形成搜索集合DE。
Google以及其他的搜索引擎計算的每個網(wǎng)頁單獨與關(guān)鍵詞之間的相關(guān)性,并不計算預(yù)搜索結(jié)果集合DE中各個記錄之間的相關(guān)性。這樣,在形成預(yù)搜索結(jié)果集合DE后,存在大量重復(fù)的文章內(nèi)容,只是這些文章的超級鏈接不一樣,頁面包含的其他次要信息不一樣。而現(xiàn)有的搜索引擎出于速度至上的原因,對此對此并沒有處理。
我們將預(yù)搜索結(jié)果DE不直接返回給請求用戶。我們將預(yù)搜索結(jié)果集合DE發(fā)送到答案確認(rèn)處理中心。答案確認(rèn)程序的任務(wù)就是重新對這些搜索結(jié)果記錄進行投票處理,計算這些記錄的投票分?jǐn)?shù)。
它由程序自動投票計算確定。通常情況下,搜索引擎第100條以后的信息失去了它的參考意義。我們設(shè)定預(yù)搜索答案集合DE的記錄數(shù)為100條。這些記錄由頁面標(biāo)題,包含關(guān)鍵詞的頁面摘要,頁面超級鏈接組成。我們對答案集合DE的全部100條答案記錄的頁面摘要,頁面標(biāo)題進行再次分詞處理,形成100條記錄的分詞表,然后對100個分詞表相互之間進行程序投票,由投票結(jié)果,產(chǎn)生100條答案記錄相互的投票得分。結(jié)合本來的排序位置的固有得分,計算出100條答案記錄的綜合得分。
由于答案中存在很多同樣的頁面內(nèi)容,我們由必要計算出每個頁面的排序得分,頁面的排序得分公式為頁面排序得分=當(dāng)前頁面投票得分%最高頁面投票得分那么,投票得分最高的頁面的排序得分是100分,其他的頁面的排序分?jǐn)?shù)參考最高頁面依次計算出來。根據(jù)排序得分,我們將排序結(jié)果分為10類,最高排序得分到第10排序得分為第1類,第11排序得分到第20排序得分為第2類,依次類推,最后的10條記錄排在第10類。我們將每類的的一條記錄,也就是第1,第11,21,31,41,51,61,71,81,91條記錄返回給用戶。用戶點擊“該分類所有答案”后再展開該分類下的其他答案。
上述頁面排序得分形成最后的答案集合E3。
將本次搜索的搜索請求問題A3,問題分類類別C3,答案集合E3,E3的排序分?jǐn)?shù)存入歷史搜索數(shù)據(jù)庫。并且,將這些信息發(fā)布在互聯(lián)網(wǎng)站上,提供給瀏覽用戶進一步確定分類和投票確定排序分?jǐn)?shù)的功能。搜索引擎系統(tǒng)記錄用戶的動作,并更新歷史搜索數(shù)據(jù)庫信息。
本發(fā)明并不僅限于上述的實施例。比如,對歷史搜索數(shù)據(jù)庫的處理,采用人工問題分類或者是自動分類,人工投票或者自動投票,都可以根據(jù)需要進行組合。本領(lǐng)域技術(shù)人員可以根據(jù)以上說明了的內(nèi)容,在不脫離本發(fā)明的技術(shù)思想的范圍內(nèi)進行變更和修正,本發(fā)明的技術(shù)范圍不限于說明書記載的內(nèi)容。
權(quán)利要求
1一種搜索引擎系統(tǒng)的搜索方法,其特征在于,該方法包括以下步驟(一)接收用戶的搜索請求;(二)對用戶搜索請求進行預(yù)搜索處理,形成預(yù)搜索結(jié)果記錄集合;(三)對預(yù)搜索結(jié)果的各條記錄進行投票處理,計算每條記錄的各自投票得分,形成確認(rèn)后搜索結(jié)果記錄集合;(四)按照規(guī)則將確認(rèn)后搜索結(jié)果排序返回給用戶;(五)儲存并發(fā)布本次搜索請求的用戶請求與確認(rèn)后搜索結(jié)果,形成搜索歷史數(shù)據(jù)庫。
2根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟(一)中接收的請求是用戶發(fā)送短信形式的搜索請求。
3根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟(一)中接收的請求是用戶通過語音方式提交的搜索請求。
4根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟(二)中的預(yù)搜索處理包括以下步驟設(shè)定一個問題相關(guān)度閥值,計算用戶提交的搜索請求問題與歷史搜索數(shù)據(jù)庫中的問題的相關(guān)度,將相關(guān)度大于設(shè)定閥值的搜索結(jié)果從歷史搜索數(shù)據(jù)庫取出,形成預(yù)搜索結(jié)果記錄集合。
5根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟(二)中的預(yù)搜索處理包括對用戶搜索請求進行分類處理的步驟分類過程由預(yù)先注冊的用戶投票確定;投票確定后更新正確投票人員的投票積分。
6根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟(二)中的預(yù)搜索處理可以是向預(yù)先注冊的專家團提交查詢,由專家團解答,并返回專家團各自的推薦結(jié)果。
7根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟(三)的投票處理可以是預(yù)搜索結(jié)果記錄條目之間的自動投票處理。
8根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟(三)的投票處理可以是預(yù)先注冊的投票人員人工進行投票處理。
9根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟(四)的排列規(guī)則是對投票結(jié)果進行分類,按照類別進行排列。
10根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟(五)還包括以下步驟用戶對發(fā)布的答案進行分類確認(rèn)和投票后,將歷史搜索數(shù)據(jù)庫中答案的得分以及分類信息更新。
全文摘要
本發(fā)明涉及一種搜索引擎技術(shù),特別涉及一種解決用戶提交基于自然語言搜索請求的搜索方法。搜索系統(tǒng)接收用戶從不同方式提交,采用自然語言形式,任何領(lǐng)域的搜索請求;搜索引擎對用戶搜索請求進行查詢歷史搜索數(shù)據(jù)庫,問題分類,向互聯(lián)網(wǎng)搜索引擎或者注冊的專家團進行查詢等預(yù)搜索處理,并形成預(yù)搜索結(jié)果記錄集合;然后,對預(yù)搜索結(jié)果的各條記錄進行程序自動投票或者是注冊的投票人員的投票處理,計算每條記錄的各自投票得分?jǐn)?shù),形成確認(rèn)后的搜索結(jié)果記錄集合;按規(guī)則將確認(rèn)后的搜索結(jié)果排序返回給用戶;儲存并發(fā)布本次搜索請求的用戶請求問題以及確認(rèn)后的搜索結(jié)果信息,形成搜索歷史數(shù)據(jù)庫。用戶可對發(fā)布的搜索結(jié)果進行分類確認(rèn)和重新投票。
文檔編號G06F17/30GK1991829SQ20051013519
公開日2007年7月4日 申請日期2005年12月29日 優(yōu)先權(quán)日2005年12月29日
發(fā)明者陳亞斌 申請人:陳亞斌