欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法和裝置的制作方法

文檔序號:6598195閱讀:136來源:國知局
專利名稱:根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索領(lǐng)域和自然語言處理領(lǐng)域,尤其涉及一種根據(jù)句子序列號進(jìn) 行網(wǎng)頁搜索的方法和裝置。
背景技術(shù)
現(xiàn)有的主流搜索引擎,如Google、Yahoo、Baidu等都是通過關(guān)鍵字或關(guān)鍵詞進(jìn)行 搜索。這些搜索引擎的索引結(jié)構(gòu)中都必然包括關(guān)鍵字或關(guān)鍵詞。在1998年的第七屆萬維網(wǎng)會議上,Sergey Brin和Lawrence Page發(fā)表的題 % "The Anatomy of a Large-Scale Hypertextual Web Search Engine,,的論文公開了 Google搜索引擎的索引結(jié)構(gòu)。Google搜索引擎的前向索引表和后向索引表都包括該搜索 引擎所下載網(wǎng)頁的前4K個字、詞或標(biāo)點符號在網(wǎng)頁中的位置信息。專利號為ZL01109132. 0,發(fā)明名稱為“判斷一組查詢關(guān)鍵字或詞在網(wǎng)頁中位置相 關(guān)性的方法”的發(fā)明專利公開了另一種搜索引擎的索引結(jié)構(gòu)。前向索引表和后向索引表都 包括該搜索引擎所下載網(wǎng)頁的字、詞或標(biāo)點符號在網(wǎng)頁中的位置,前向相鄰的字、詞或標(biāo)點 符號在網(wǎng)頁中的位置以及后向相鄰的字、詞或標(biāo)點符號在網(wǎng)頁中的位置等信息。現(xiàn)有的索引結(jié)構(gòu),也即前向索引表(Forward Index)和倒排索引表 (InvertedIndex)都沒有包括搜索引擎所下載網(wǎng)頁的句子信息。因此,現(xiàn)有的搜索引擎在很 大概率上,會將搜索項所分解的關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號分散于若干不同句子的網(wǎng)頁的 搜索結(jié)果返回搜索用戶。例如,郁達(dá)夫的《春風(fēng)沉醉的晚上》有一個句子“經(jīng)她這一問,我重 新把半年來困苦的情形一層一層的想了出來?!?。使用現(xiàn)有的主流搜索引擎,輸入搜索項“半 年來一層”,結(jié)果排名靠前的幾個搜索網(wǎng)頁都和郁達(dá)夫的這篇文章無關(guān)?,F(xiàn)有的搜索引擎返 回的搜索結(jié)果中,有一定概率會將“半年來”和“一層”分別位于文章首、尾的網(wǎng)頁的排序權(quán) 值設(shè)置較高,也即排名靠前。例如,有可能返回如下網(wǎng)頁,內(nèi)容為“11月11日晚,廣州粵北 地區(qū)迎來了半年來第一場救命雨,這場雨從晚上6時一直下到凌晨6時,而且還在繼續(xù)下, 只不過雨量稍許小些,空氣質(zhì)量也略有下降。這場雨的到來,可以說,對當(dāng)?shù)匾呀?jīng)干旱了近 半年時間,連水都快喝不上的老百姓來講,可真是一場救命雨呀!城市的街道不但被這場 雨沖刷得干干凈凈,空氣清爽,老百姓的莊稼也有了大希望,甭提大家的心情是多么的愉快 和高興!趕緊去雨中放松一下已揪緊的心吧!大雨將美麗的珠江支流北江的夜景蒙上了 一層陰影。”。在該網(wǎng)頁中,關(guān)鍵詞“半年來”位于該網(wǎng)頁的開頭,而關(guān)鍵詞“一層”卻位于該 網(wǎng)頁的末尾。顯然,在該網(wǎng)頁中,這兩個關(guān)鍵詞的關(guān)系松散,該網(wǎng)頁并非用戶所想搜索的對 象?,F(xiàn)有的搜索引擎沒有對所下載網(wǎng)頁進(jìn)行句子分割,沒有任何所下載網(wǎng)頁的句子信 息。因此,現(xiàn)有的搜索引擎只能得到分解的關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號在某個網(wǎng)頁中的位置 距離,例如分解的關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號相距多少個字節(jié)的距離。但是,并不能直接得 到分解的關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號在某個網(wǎng)頁中的句子距離,也即句子序列號之差的絕 對值。由此可知,現(xiàn)有的搜索引擎不能保證句子距離為零(關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號位于同一句子)或句子距離較小(關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號位于相鄰句子或相距較近的句子) 的網(wǎng)頁的排名靠前。

發(fā)明內(nèi)容
有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問題是提供一種根據(jù)句子序 列號進(jìn)行網(wǎng)頁搜索的方法和裝置,提高關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的句子距離為零或句子 距離較小的網(wǎng)頁的排序權(quán)值,從而使網(wǎng)頁的排名靠前,提升用戶的搜索滿意度。本發(fā)明公開了一種根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法,包括以下步驟A)、獲取若干網(wǎng)頁,并下載至網(wǎng)頁數(shù)據(jù)庫;B)、對所述若干網(wǎng)頁進(jìn)行句子分割,并分別為每個網(wǎng)頁的句子分配序列號;C)、制作前向索引表,所述前向索引表包括句子序列號;D)、制作倒排索引表,所述倒排索引表包括所述句子序列號;E)、輸入搜索項,將所述搜索項分解為至少一個關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號;F)、根據(jù)所述倒排索引表,計算包括所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的網(wǎng)頁的排序 權(quán)值,輸出搜索結(jié)果。進(jìn)一步地,所述步驟B)進(jìn)一步包括以下步驟Bi)、索引器掃描所述每個網(wǎng)頁,為所述每個網(wǎng)頁作詞語切分,記錄每個詞、字或標(biāo) 點符號在網(wǎng)頁中的位置;B2)、根據(jù)所述每個詞、字或標(biāo)點符號在網(wǎng)頁中的位置和后面相鄰的標(biāo)點符號在網(wǎng) 頁中的位置,進(jìn)行句子分割;B3)、為每個句子分配序列號,確定所述每個詞、字或標(biāo)點符號的句子序列號。優(yōu)選地,所述句子分割的規(guī)則是如果句號、問號、省略號或感嘆號在引號內(nèi),且位 于段落結(jié)束之處,句子的結(jié)尾為句號、問號、省略號或感嘆號以及反引號;如果句號、問號、 省略號或感嘆號在引號外,句子結(jié)尾為句號、問號、省略號或感嘆號。優(yōu)選地,所述前向索引表包括所述每個詞、字或標(biāo)點符號的網(wǎng)頁序列號,所述每個 詞、字或標(biāo)點符號,所述每個詞、字或標(biāo)點符號的序列號和所述每個詞、字或標(biāo)點符號的句 子序列號。優(yōu)選地,所述倒排索引表包括所述每個詞、字或標(biāo)點符號,所述每個詞、字或標(biāo)點 符號的序列號,包含所述每個詞、字或標(biāo)點符號的網(wǎng)頁數(shù)量,所述每個詞、字或標(biāo)點符號的 網(wǎng)頁序列號和所述每個詞、字或標(biāo)點符號的句子序列號。進(jìn)一步地,所述步驟F)在包含所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的網(wǎng)頁中,根據(jù)所 述倒排索引表,判斷所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號是否屬于同一句子,如果屬于同一句 子,提高所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號所屬網(wǎng)頁的排序權(quán)值;如果不屬于同一句子,計算 所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的句子距離,如果所述句子距離大,則降低所述關(guān)鍵字、關(guān) 鍵詞或標(biāo)點符號所屬網(wǎng)頁的排序權(quán)值,如果所述句子距離小,則提高所述關(guān)鍵字、關(guān)鍵詞或 標(biāo)點符號所屬網(wǎng)頁的排序權(quán)值。優(yōu)選地,所述網(wǎng)頁的排序權(quán)值由所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的句子距離,所述 網(wǎng)頁所在域名的權(quán)威性,所述網(wǎng)頁的受歡迎程度,所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號是否出現(xiàn) 在網(wǎng)址、標(biāo)題、錨文本或元標(biāo)簽中,所述網(wǎng)頁的訪問流量和點進(jìn)率,所述網(wǎng)頁所在網(wǎng)站的注冊數(shù)據(jù)和開站數(shù)據(jù)綜合決定。優(yōu)選地,如果所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號屬于同一句子,進(jìn)一步對所述句子作 自然語言處理。本發(fā)明還公開了一種根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的裝置,包括網(wǎng)頁獲取器,用于獲取并下載若干網(wǎng)頁;網(wǎng)頁數(shù)據(jù)庫,用于儲存下載的所述若干網(wǎng)頁;索引器,用于對所述若干網(wǎng)頁進(jìn)行句子分割,并分別為每個網(wǎng)頁的句子分配序列 號,制作包括句子序列號的前向索引表和倒排索引表;索引數(shù)據(jù)庫,用于存儲所述前向索引表和所述倒排索引表;搜索器,用于將搜索項分解為至少一個關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號,根據(jù)所述倒排 索引表,計算包含所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的網(wǎng)頁的排序權(quán)值,輸出搜索結(jié)果;所述網(wǎng)頁獲取器、所述網(wǎng)頁數(shù)據(jù)庫、所述索引器、所述索引數(shù)據(jù)庫、所述搜索器依 次連接。本發(fā)明的有益效果在于本發(fā)明的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法和裝置的前向索引表和倒排索引 表都包括了網(wǎng)頁的句子序列號,通過查詢句子序列號信息,搜索引擎可以提高關(guān)鍵字、關(guān) 鍵詞或標(biāo)點符號的句子距離為零或句子距離較小的網(wǎng)頁的排序權(quán)值,從而使網(wǎng)頁的排名靠 前,提升用戶的搜索滿意度。本發(fā)明的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法和裝置可以直接根據(jù)每個網(wǎng)頁中 的每個字、詞或標(biāo)點符號的句子序列號,快速判斷兩個或多個待查詢的關(guān)鍵字、關(guān)鍵詞或標(biāo) 點符號是否屬于同一句子或句子距離較近,而不需要大量的比較運算。本發(fā)明的根據(jù)句子 序列號進(jìn)行網(wǎng)頁搜索的方法和裝置具有較低的時間復(fù)雜度,從而提高搜索的響應(yīng)速度,為 用戶帶來更快捷的搜索體驗。本發(fā)明的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法和裝置可以為后續(xù)的自然語言處 理提供先決條件。如果兩個或多個待查詢的關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號屬于同一句子,搜索 引擎可以對該句子作進(jìn)一步深入的自然語言處理。例如,對該句子作各種句法分析,如依存 句法分析,以得到該句子的詞匯之間的依存關(guān)系和中心語;或者可以對該句子做傾向性分 析(褒貶分析),以得知該句子的傾向性等。


圖1為本發(fā)明的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法的流程圖;圖2為本發(fā)明的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法和裝置的前向索引表的結(jié) 構(gòu)示意圖;圖3為本發(fā)明的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法和裝置的倒排索引表的結(jié) 構(gòu)示意圖;圖4為本發(fā)明的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的裝置的結(jié)構(gòu)示意圖。
具體實施例方式以下將結(jié)合附圖對本發(fā)明的構(gòu)思、具體結(jié)構(gòu)及產(chǎn)生的技術(shù)效果作進(jìn)一步說明,以
6充分地了解本發(fā)明的目的、特征和效果。如圖1所示,本發(fā)明公開了一種根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法,包括以下 步驟步驟101、獲取若干網(wǎng)頁,并下載至網(wǎng)頁數(shù)據(jù)庫;搜索引擎公司通過網(wǎng)頁獲取器從互聯(lián)網(wǎng)上獲取若干網(wǎng)頁,并將若干網(wǎng)頁下載至搜 索引擎公司的計算機(jī)中,也即網(wǎng)頁數(shù)據(jù)庫中。步驟102、對若干網(wǎng)頁進(jìn)行句子分割,并分別為每個網(wǎng)頁的句子分配序列號;首先,索引器掃描每個網(wǎng)頁,為每個網(wǎng)頁作詞語切分,記錄每個詞、字或標(biāo)點符號 在網(wǎng)頁中的位置;其次,根據(jù)每個詞、字或標(biāo)點符號在網(wǎng)頁中的位置和后面相鄰的標(biāo)點符號在網(wǎng)頁 中的位置,進(jìn)行句子分割;再次,為每個句子分配序列號,確定每個詞、字或標(biāo)點符號的句子序列號。每個網(wǎng) 頁的句子序列號是單獨編號的。步驟103、制作前向索引表,前向索引表包括句子序列號;前向索引表包括每個詞、字或標(biāo)點符號的網(wǎng)頁序列號,每個詞、字或標(biāo)點符號,每 個詞、字或標(biāo)點符號的序列號和每個詞、字或標(biāo)點符號的句子序列號。前向索引表還可以包 括每個詞、字或標(biāo)點符號在網(wǎng)頁中的位置,也即偏移量等信息。步驟104、制作倒排索引表,倒排索引表包括句子序列號;倒排索引表包括每個詞、字或標(biāo)點符號,每個詞、字或標(biāo)點符號的序列號,包含每 個詞、字或標(biāo)點符號的網(wǎng)頁數(shù)量,每個詞、字或標(biāo)點符號的網(wǎng)頁序列號和每個詞、字或標(biāo)點 符號的句子序列號。倒排索引表也可以包括每個詞、字或標(biāo)點符號在網(wǎng)頁中的位置,也即偏
移量等信息。步驟105、輸入搜索項,將搜索項分解為至少一個關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號;用戶輸入搜索項,搜索器將搜索項分解為多個關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號。當(dāng)然, 用戶輸入的搜索項也可能本身即為一個關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號,搜索器則不需對此進(jìn) 行分解。步驟106、根據(jù)倒排索引表,計算包括關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的網(wǎng)頁的排序權(quán) 值,輸出搜索結(jié)果。在包含所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的網(wǎng)頁中,根據(jù)倒排索引表,判斷所述關(guān)鍵 字、關(guān)鍵詞或標(biāo)點符號是否屬于同一句子。如果屬于同一句子,提高關(guān)鍵字、關(guān)鍵詞或標(biāo)點 符號所屬網(wǎng)頁的排序權(quán)值;如果不屬于同一句子,計算關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的句子距 離。如果句子距離大,則降低關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號所屬網(wǎng)頁的排序權(quán)值,如果句子距 離小,則提高關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號所屬網(wǎng)頁的排序權(quán)值。請參閱圖2,前向索引表包括每個詞、字或標(biāo)點符號的網(wǎng)頁序列號docid,每個詞、
字或標(biāo)點符號wordl、word2、word3......,每個詞、字或標(biāo)點符號的序列號word idl、word
id2、word id3......,每個詞、字或標(biāo)點符號的句子序列號sentence idl、sentence id2、
sentence id3……。每個詞、字或標(biāo)點符號的網(wǎng)頁序列號,每個詞、字或標(biāo)點符號,每個詞、 字或標(biāo)點符號的序列號是唯一的。但是,每個詞、字或標(biāo)點符號的句子序列號可以為一個或 多個。因為,一個詞、字或標(biāo)點符號可以在一個網(wǎng)頁中的多個句子中出現(xiàn)。
當(dāng)然,前向索引表還可以包括每個詞、字或標(biāo)點符號在網(wǎng)頁中的位置,也即偏移量 等信息。但由于偏移量等信息在現(xiàn)有的搜索引擎中已廣泛使用,故在此不再贅述。請參閱圖3,倒排索引表包括每個詞、字或標(biāo)點符號word 1、word2、word3……, 每個詞、字或標(biāo)點符號的序列號word idU word id2、word id3……,包含每個詞、字或 標(biāo)點符號的網(wǎng)頁數(shù)量ndocsl、ndocs2, ndocs3……,每個詞、字或標(biāo)點符號的網(wǎng)頁序列號
docidl、docid2、docid3、docid4、docid5、docid6......,每個詞、字或標(biāo)點符號的句子序列
號 sentence idl、sentence id2、sentence id3、sentence id4、sentence id5、sentence id6……。每個詞、字或標(biāo)點符號,每個詞、字或標(biāo)點符號的序列號,包含每個詞、字或標(biāo)點符 號的網(wǎng)頁數(shù)量,每個詞、字或標(biāo)點符號的網(wǎng)頁序列號是唯一的。但是,每個詞、字或標(biāo)點符號 的句子序列號可以為一個或多個。因為,一個詞、字或標(biāo)點符號可以在一個網(wǎng)頁中的多個句 子中出現(xiàn)。當(dāng)然,倒排索引表還可以包括每個詞、字或標(biāo)點符號在網(wǎng)頁中的位置,也即偏移量 等信息。但由于偏移量等信息在現(xiàn)有的搜索引擎中已廣泛使用,故在此不再贅述。在本發(fā)明的第一實施例中,第一網(wǎng)頁的全部內(nèi)容如下(摘自郁達(dá)夫《春風(fēng)沉醉的 晚上》)因為自去年以來,我只是一日一日的萎靡下去,差不多把“我是什么人? ” “我現(xiàn)在 所處的是怎么一種境遇? ”“我的心里還是悲還是喜? ”這些觀念都忘掉了。經(jīng)她這一問,我 重新把半年來困苦的情形一層一層的想了出來。所以聽她的問話以后,我只是呆呆的看她, 半晌說不出話來。她看了我這個樣子,以為我也是一個無家可歸的流浪人。臉上就立時起 了一種孤寂的表情,微微的嘆著說“唉!你也是同我一樣的么?”微微的嘆了一聲之后,她就不說話了。請參閱圖4,本發(fā)明的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的裝置,也即搜索引擎40通 過網(wǎng)頁獲取器401,將第一網(wǎng)頁下載至搜索引擎公司的計算機(jī),也即網(wǎng)頁數(shù)據(jù)庫402。索引器403掃描第一網(wǎng)頁,為第一網(wǎng)頁作詞語切分,記錄每個詞、字或標(biāo)點符號在 網(wǎng)頁中的位置。然后,索引器403根據(jù)每個詞、字或標(biāo)點符號在網(wǎng)頁中的位置和后面相鄰的 標(biāo)點符號在網(wǎng)頁中的位置,進(jìn)行句子分割。句子是指由詞和短語構(gòu)成的具有獨立表述意義的語法單位。在漢語中,句子結(jié)尾 應(yīng)該為句號、問號、省略號或感嘆號。如果這些符號出現(xiàn)在引號內(nèi),當(dāng)這些符號位于段落結(jié) 束之處,這些符號和反引號一起被定義為句子的結(jié)尾。當(dāng)然,本發(fā)明的句子的分割規(guī)則并不 限于此,可以由索引器403設(shè)定分割規(guī)則。例如,如果句號、問號、省略號或感嘆號出現(xiàn)在引 號內(nèi),即使這些符號位于段落開頭或段落中間部分,這些符號和反引號也可以一起被定義 為句子的結(jié)尾。句子分割結(jié)束后,為每個句子分配序列號,從而可以確定每個詞、字或標(biāo)點符號的 句子序列號。較佳地,句子序列號為0、1、2、3、4……。但本發(fā)明并不限于此,句子序列號可 以為1、2、3、4……,或者2、3、4……等。句子序列號的起始編號可以為任意整數(shù)。作為本發(fā)明的另一實施例,句子序列號也可以為1、3、5、7……,或者2、6、10、 14……等。句子序列號之間的差值也可以為任意自然數(shù)。作為本發(fā)明的另一實施例,句子序列號也可以為……4、3、2、1等。句子序列號也可以依次遞減。句子序列號只需按設(shè)定的規(guī)律統(tǒng)一分配,即可適用于本發(fā)明。第一網(wǎng)頁可以被分割為以下五個句子
因為自去年以來,我只是一日一日的萎靡下去,差不多把“我是什么人?” “我 現(xiàn)在所處的是怎么一種境遇? ” “我的心里還是悲還是喜? ”這些觀念都忘掉了。[1]經(jīng)她這一問,我重新把半年來困苦的一層一層的想了出來。[2]所以聽她的問話以后,我只是呆呆的看她,半晌說不出話來。[3]她看了我這個樣子,以為我也是一個無家可歸的流浪人。[4]臉上就立時起了一種孤寂的表情,微微的嘆著說唉!你也是同我一樣的 么?,,[5]微微的嘆了一聲之后,她就不說話了。當(dāng)然,根據(jù)索引器403設(shè)定的不同的分割規(guī)則,第一網(wǎng)頁可以分割為少于五個或 多于五個的句子。例如也可以將句子序列號為零的句子再分割為四個句子。索引器403制作前向索引表,并存入索引數(shù)據(jù)庫404。第一網(wǎng)頁的前向索引表如表 一所示。docid為每個詞、字或標(biāo)點符號的網(wǎng)頁序列號,word為每個詞、字或標(biāo)點符號,word id為每個詞、字或標(biāo)點符號的序列號,sentence id為每個詞、字或標(biāo)點符號的句子序列號。表一第一網(wǎng)頁的前向索引表 在本發(fā)明的第二實施例中,第二網(wǎng)頁的全部內(nèi)容如下(摘自王之渙《登鸛雀樓》)白日依山盡,黃河入海流。欲窮千里目,更上一層樓。同樣,第二網(wǎng)頁也會通過網(wǎng)頁獲取器401,被下載至搜索引擎公司的計算機(jī),也即 網(wǎng)頁數(shù)據(jù)庫402。索引器403對第二網(wǎng)頁作句子分割,并分配句子序列號。第二網(wǎng)頁可以被分割為以下兩個句子
白日依山盡,黃河入海流。[1]欲窮千里目,更上一層樓。索引器403制作前向索引表,并存入索引數(shù)據(jù)庫404。第二網(wǎng)頁的前向索引表如表
13二所示。表二第二網(wǎng)頁的前向索引表 由表二可知,每個網(wǎng)頁的句子序列號是獨立編號的。在第二實施例中,句子序列號 又從零開始編號。但每個詞、字或標(biāo)點符號的網(wǎng)頁序列號docid,每個詞、字或標(biāo)點符號的序 列號word id是接續(xù)表一順次編號的。需注意的是,“,”、“?!薄ⅰ耙粚印钡膚ord id在表一中 已分別被分配為10、34、44。因此,在表二中,仍保留表一的word id。由此可知,在整個搜 索引擎40中,每個詞、字或標(biāo)點符號的序列號word id是唯一的。
表一和表二制作完成后,索引器403將表一和表二合并為一個總前向索引表。索 引器403為每個網(wǎng)頁制作單獨的一個前向索引表,再將若干前向索引表合并為一個總前向 索引表。若干前向索引表的合并為現(xiàn)有技術(shù),在此不再贅述。根據(jù)表一和表二,索引器403制作倒排索引表,并存入索引數(shù)據(jù)庫404。第一網(wǎng)頁 和第二網(wǎng)頁的倒排索引表如表三所示。word為每個詞、字或標(biāo)點符號,word id為每個詞、 字或標(biāo)點符號的序列號,ndocs為包含每個詞、字或標(biāo)點符號的網(wǎng)頁數(shù)量,docid為每個詞、 字或標(biāo)點符號的網(wǎng)頁序列號,sentence id為每個詞、字或標(biāo)點符號的句子序列號。表三第一網(wǎng)頁和第二網(wǎng)頁的倒排索引表 需注意的是,第一網(wǎng)頁和第二網(wǎng)頁中都有“,”、“?!薄ⅰ耙粚印?。因此,對應(yīng)的包含每 個詞、字或標(biāo)點符號的網(wǎng)頁數(shù)量ndocs為2。搜索用戶406輸入搜索項后,搜索器405將搜索項分解為多個關(guān)鍵字、關(guān)鍵詞或標(biāo) 點符號。當(dāng)然,搜索用戶406輸入的搜索項也可能本身即為一個關(guān)鍵字、關(guān)鍵詞或標(biāo)點符 號,搜索器405則不需對此進(jìn)行分解。搜索器405根據(jù)表三的句子序列號信息判斷搜索項所分解的多個關(guān)鍵字、關(guān)鍵詞 或標(biāo)點符號在網(wǎng)頁是否屬于同一句子或句子距離較小的句子(例如,句子距離為1,也即相 鄰的句子)。例如,搜索用戶406的搜索項為“半年來一層”,搜索項被分解為關(guān)鍵詞“半年來” 和“一層”。搜索器405查詢表三,關(guān)鍵詞“半年來”和“一層”的網(wǎng)頁序列號docid都為0, 句子序列號sentence id都為1,即可以判斷兩個關(guān)鍵詞“半年來”、“一層”是屬于同一句子 的。例如,搜索用戶406的搜索項為“孤寂表情”,搜索項被分解為關(guān)鍵詞“孤寂”、“表情”。 搜索器405查詢表三,關(guān)鍵詞“孤寂”和“表情”的網(wǎng)頁序列號docid都為0,句子序列號 sentence id都為4,即可以判斷兩個關(guān)鍵字“孤寂”、“表情”是屬于同一句子的。
顯然,屬于同一句子的多個關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號在同等的排序條件下具有 更高的相關(guān)性,所屬網(wǎng)頁的排序權(quán)值應(yīng)該提高(即在同等排序條件下,所屬網(wǎng)頁應(yīng)該排名
A+^.、廣.\
mm)。對于多個關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號不屬于同一句子的網(wǎng)頁,可以計算多個關(guān)鍵 字、關(guān)鍵詞或標(biāo)點符號的句子距離(句子序列號之差的絕對值)。句子距離小的網(wǎng)頁的排序 權(quán)值應(yīng)該提高,句子距離大的網(wǎng)頁的排序權(quán)值應(yīng)該降低。當(dāng)然,網(wǎng)頁的排序權(quán)值由多方因素綜合決定。除了關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的句 子距離,還有網(wǎng)頁所在域名的權(quán)威性,網(wǎng)頁的受歡迎程度,關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號是否 出現(xiàn)在網(wǎng)址、標(biāo)題、錨文本或元標(biāo)簽中,網(wǎng)頁的訪問流量和點進(jìn)率,網(wǎng)頁所在網(wǎng)站的注冊數(shù) 據(jù)和開站數(shù)據(jù)等若干因素。另外,如果多個關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號屬于同一句子,則可以進(jìn)一步對句子作 自然語言處理。例如,對該句子作各種句法分析,如依存句法分析,得到該句子的詞匯之間 的依存關(guān)系和該句子的中心語。例如,對該句子作傾向性分析(褒貶分析),得知該句子的 傾向性。上述分析可以同時顯示在搜索結(jié)果中,為搜索客戶406提供更完善的增值服務(wù)。如圖4所示,本發(fā)明還提供了一種根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的裝置,也即搜 索引擎40,包括網(wǎng)頁獲取器401,用于獲取并下載若干網(wǎng)頁;網(wǎng)頁數(shù)據(jù)庫402,用于儲存下 載的若干網(wǎng)頁;索引器403,用于對若干網(wǎng)頁進(jìn)行句子分割,并分別為每個網(wǎng)頁的句子分配 序列號,制作包括句子序列號的前向索引表和倒排索引表;索引數(shù)據(jù)庫404,用于存儲前向 索引表和倒排索引表;搜索器405,用于將搜索項分解為至少一個關(guān)鍵字、關(guān)鍵詞或標(biāo)點符 號,根據(jù)倒排索引表,計算包含關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的網(wǎng)頁的排序權(quán)值,輸出搜索結(jié) 果。網(wǎng)頁獲取器401、網(wǎng)頁數(shù)據(jù)庫402、索引器403、索引數(shù)據(jù)庫404、搜索器405依次連接。 搜索引擎40將最終的搜索結(jié)果返回至搜索用戶406。第一實施例和第二實施例以中文網(wǎng)頁為例,對本發(fā)明的根據(jù)句子序列號進(jìn)行網(wǎng)頁 搜索的方法和裝置進(jìn)行闡述。但本發(fā)明并不限于此,本發(fā)明的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜 索的方法和裝置還可應(yīng)用于英文、德文、俄羅斯文、日文、西班牙文等各種包含標(biāo)點符號的 自然語言的信息檢索。本發(fā)明可應(yīng)用于網(wǎng)頁、電子書籍、結(jié)構(gòu)化文本等的搜索。本發(fā)明的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法和裝置的倒排索引表包括網(wǎng)頁的 句子序列號,通過查詢句子序列號信息,搜索引擎可以提高關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的句 子距離為零或句子距離較小的網(wǎng)頁的排序權(quán)值,從而使網(wǎng)頁的排名靠前,提升用戶的搜索 滿意度。本發(fā)明的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法和裝置可以直接根據(jù)每個網(wǎng)頁中 的每個字、詞或標(biāo)點符號的句子序列號,快速判斷兩個或多個待查詢的關(guān)鍵字、關(guān)鍵詞或標(biāo) 點符號是否屬于同一句子或句子距離較近,而不需要大量的比較運算。本發(fā)明的根據(jù)句子 序列號進(jìn)行網(wǎng)頁搜索的方法和裝置具有較低的時間復(fù)雜度,從而提高搜索的響應(yīng)速度,為 用戶帶來更快捷的搜索體驗。本發(fā)明的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法和裝置可以為后續(xù)的自然語言處 理提供先決條件。如果兩個或多個待查詢的關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號屬于同一句子,搜索 引擎可以對該句子作進(jìn)一步深入的自然語言處理。以上詳細(xì)描述了本發(fā)明的較佳具體實施例。應(yīng)當(dāng)理解,本領(lǐng)域的普通技術(shù)無需創(chuàng)造性勞動就可以根據(jù)本發(fā)明的構(gòu)思做出諸多修改和變化。因此,凡本技術(shù)領(lǐng)域中技術(shù)人員 依本發(fā)明的構(gòu)思在現(xiàn)有技術(shù)的基礎(chǔ)上通過邏輯分析、推理或者有限的實驗可以得到的技術(shù) 方案,皆應(yīng)在本發(fā)明的權(quán)利要求保護(hù)范圍內(nèi)。
權(quán)利要求
一種根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法,其特征在于,包括以下步驟A)、獲取若干網(wǎng)頁,并下載至網(wǎng)頁數(shù)據(jù)庫;B)、對所述若干網(wǎng)頁進(jìn)行句子分割,并分別為每個網(wǎng)頁的句子分配序列號;C)、制作前向索引表,所述前向索引表包括句子序列號;D)、制作倒排索引表,所述倒排索引表包括所述句子序列號;E)、輸入搜索項,將所述搜索項分解為至少一個關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號;F)、根據(jù)所述倒排索引表,計算包括所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的網(wǎng)頁的排序權(quán)值,輸出搜索結(jié)果。
2.如權(quán)利要求1所述的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法,其特征在于,所述步驟 B)進(jìn)一步包括以下步驟Bi)、索引器掃描所述每個網(wǎng)頁,為所述每個網(wǎng)頁作詞語切分,記錄每個詞、字或標(biāo)點符 號在網(wǎng)頁中的位置;B2)、根據(jù)所述每個詞、字或標(biāo)點符號在網(wǎng)頁中的位置和后面相鄰的標(biāo)點符號在網(wǎng)頁中 的位置,進(jìn)行句子分割;B3)、為每個句子分配序列號,確定所述每個詞、字或標(biāo)點符號的句子序列號。
3.如權(quán)利要求2所述的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法,其特征在于,所述句子 分割的規(guī)則是如果句號、問號、省略號或感嘆號在引號內(nèi),且位于段落結(jié)束之處,句子的結(jié) 尾為句號、問號、省略號或感嘆號以及反引號;如果句號、問號、省略號或感嘆號在引號外, 句子結(jié)尾為句號、問號、省略號或感嘆號。
4.如權(quán)利要求2所述的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法,其特征在于,所述前向 索引表包括所述每個詞、字或標(biāo)點符號的網(wǎng)頁序列號,所述每個詞、字或標(biāo)點符號,所述每 個詞、字或標(biāo)點符號的序列號和所述每個詞、字或標(biāo)點符號的句子序列號。
5.如權(quán)利要求2所述的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法,其特征在于,所述倒排 索引表包括所述每個詞、字或標(biāo)點符號,所述每個詞、字或標(biāo)點符號的序列號,包含所述每 個詞、字或標(biāo)點符號的網(wǎng)頁數(shù)量,所述每個詞、字或標(biāo)點符號的網(wǎng)頁序列號和所述每個詞、 字或標(biāo)點符號的句子序列號。
6.如權(quán)利要求1 5中任一權(quán)利要求所述的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法,其 特征在于,所述步驟F)進(jìn)一步在包含所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的網(wǎng)頁中,根據(jù)所述 倒排索引表,判斷所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號是否屬于同一句子,如果屬于同一句子, 提高所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號所屬網(wǎng)頁的排序權(quán)值;如果不屬于同一句子,計算所述 關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的句子距離,如果所述句子距離大,則降低所述關(guān)鍵字、關(guān)鍵詞 或標(biāo)點符號所屬網(wǎng)頁的排序權(quán)值,如果所述句子距離小,則提高所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點 符號所屬網(wǎng)頁的排序權(quán)值。
7.如權(quán)利要求6所述的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法,其特征在于,所述網(wǎng)頁 的排序權(quán)值由所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的句子距離,所述網(wǎng)頁所在域名的權(quán)威性,所 述網(wǎng)頁的受歡迎程度,所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號是否出現(xiàn)在網(wǎng)址、標(biāo)題、錨文本或元 標(biāo)簽中,所述網(wǎng)頁的訪問流量和點進(jìn)率,所述網(wǎng)頁所在網(wǎng)站的注冊數(shù)據(jù)和開站數(shù)據(jù)綜合決 定。
8.如權(quán)利要求6所述的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法,其特征在于,如果所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號屬于同一句子,進(jìn)一步對所述句子作自然語言處理。
9.一種根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的裝置,包括網(wǎng)頁獲取器,用于獲取并下載若干網(wǎng)頁;網(wǎng)頁數(shù)據(jù)庫,用于儲存下載的所述若干網(wǎng)頁;索引器,用于對所述若干網(wǎng)頁進(jìn)行句子分割,并分別為每個網(wǎng)頁的句子分配序列號,制 作包括句子序列號的前向索引表和倒排索引表;索引數(shù)據(jù)庫,用于存儲所述前向索引表和所述倒排索引表;搜索器,用于將搜索項分解為至少一個關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號,根據(jù)所述倒排索引 表,計算包含所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的網(wǎng)頁的排序權(quán)值,輸出搜索結(jié)果;所述網(wǎng)頁獲取器、所述網(wǎng)頁數(shù)據(jù)庫、所述索引器、所述索引數(shù)據(jù)庫、所述搜索器依次連接。
10.如權(quán)利要求9所述的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的裝置,其特征在于,所述前向 索引表包括所述若干網(wǎng)頁的每個詞、字或標(biāo)點符號的網(wǎng)頁序列號,所述每個詞、字或標(biāo)點符 號,所述每個詞、字或標(biāo)點符號的序列號和所述每個詞、字或標(biāo)點符號的句子序列號。
11.如權(quán)利要求9所述的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的裝置,其特征在于,所述倒排 索引表包括所述若干網(wǎng)頁的每個詞、字或標(biāo)點符號,所述每個詞、字或標(biāo)點符號的序列號, 包含所述每個詞、字或標(biāo)點符號的網(wǎng)頁數(shù)量,所述每個詞、字或標(biāo)點符號的網(wǎng)頁序列號和所 述每個詞、字或標(biāo)點符號的句子序列號。
12.如權(quán)利要求9所述的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的裝置,其特征在于,所述句子 分割的規(guī)則是如果句號、問號、省略號或感嘆號在引號內(nèi),且位于段落結(jié)束之處,句子的結(jié) 尾為句號、問號、省略號或感嘆號以及反引號;如果句號、問號、省略號或感嘆號在引號外, 句子結(jié)尾為句號、問號、省略號或感嘆號。
13.如權(quán)利要求9 12中任一權(quán)利要求所述的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的裝置, 其特征在于,所述搜索器還用于在包含所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的網(wǎng)頁中,根據(jù)所述 倒排索引表,判斷所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號是否屬于同一句子,如果屬于同一句子, 提高所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號所屬網(wǎng)頁的排序權(quán)值;如果不屬于同一句子,計算所述 關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的句子距離,如果所述句子距離大,則降低所述關(guān)鍵字、關(guān)鍵詞 或標(biāo)點符號所屬網(wǎng)頁的排序權(quán)值,如果所述句子距離小,則提高所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點 符號所屬網(wǎng)頁的排序權(quán)值。
14.如權(quán)利要求9所述的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的裝置,其特征在于,所述網(wǎng)頁 的排序權(quán)值由所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的句子距離,所述網(wǎng)頁所在域名的權(quán)威性,所 述網(wǎng)頁的受歡迎程度,所述關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號是否出現(xiàn)在網(wǎng)址、標(biāo)題、錨文本或元 標(biāo)簽中,所述網(wǎng)頁的訪問流量和點進(jìn)率,所述網(wǎng)頁所在網(wǎng)站的注冊數(shù)據(jù)和開站數(shù)據(jù)綜合決 定。
15.如權(quán)利要求9所述的根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的裝置,其特征在于,如果所述 關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號屬于同一句子,所述搜索器還用于對所述句子作自然語言處理。
全文摘要
本發(fā)明公開了一種根據(jù)句子序列號進(jìn)行網(wǎng)頁搜索的方法和裝置。該方法包括以下步驟A、獲取若干網(wǎng)頁,并下載至網(wǎng)頁數(shù)據(jù)庫;B、對若干網(wǎng)頁進(jìn)行句子分割,并分別為每個網(wǎng)頁的句子分配序列號;C、制作前向索引表,前向索引表包括句子序列號;D、制作倒排索引表,倒排索引表包括所述句子序列號;E、輸入搜索項,將搜索項分解為至少一個關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號;F、根據(jù)倒排索引表,計算包括關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的網(wǎng)頁的排序權(quán)值,輸出搜索結(jié)果。通過本發(fā)明的方法和裝置,可以提高關(guān)鍵字、關(guān)鍵詞或標(biāo)點符號的句子距離為零或句子距離較小的網(wǎng)頁的排序權(quán)值,從而使網(wǎng)頁的排名靠前,提升用戶的搜索滿意度。
文檔編號G06F17/30GK101923556SQ20101011031
公開日2010年12月22日 申請日期2010年2月9日 優(yōu)先權(quán)日2010年2月9日
發(fā)明者杜一華 申請人:上海萊希信息科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
贵南县| 茶陵县| 贡嘎县| 岳阳市| 利辛县| 文安县| 全椒县| 桑日县| 盘山县| 海安县| 英吉沙县| 开原市| 金塔县| 蒙自县| 上林县| 全州县| 称多县| 宁蒗| 天台县| 肃北| 芦溪县| 隆化县| 灵川县| 余庆县| 巴里| 通州市| 洪湖市| 施秉县| 江城| 米林县| 西华县| 钟祥市| 南平市| 黔西| 苍溪县| 奉节县| 新闻| 旺苍县| 遂宁市| 浦县| 隆回县|