專利名稱:根據(jù)傾向性值進行網(wǎng)頁搜索的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢索領(lǐng)域和自然語言處理領(lǐng)域,尤其涉及一種根據(jù)傾向性值進行 網(wǎng)頁搜索的方法和裝置。
背景技術(shù):
現(xiàn)有的主流搜索引擎(如Google、Yahoo、Baidu等)的搜索結(jié)果都沒有在進行排 序時考慮網(wǎng)頁的傾向性值或者搜索項所分解的關(guān)鍵字的傾向性值。在1998年的第七屆萬維網(wǎng)會議上,Sergey Brin和Lawrence Page發(fā)表的題 % "The Anatomy of a Large-Scale Hypertextual Web Search Engine,,的論文公開了 Google搜索引擎的索引結(jié)構(gòu)。Google搜索引擎的前向索引表和后向索引表都沒有包含任 何傾向性值的信息。專利號為ZL01109132. 0,發(fā)明名稱為“判斷一組查詢關(guān)鍵字或詞在網(wǎng)頁中位置相 關(guān)性的方法”的發(fā)明專利公開了另一種搜索引擎的索引結(jié)構(gòu)。前向索引表和后向索引表也 沒有包含任何傾向性值的信息。除此之外,現(xiàn)有的索引結(jié)構(gòu),也即前向索引表(Forward Index)和倒排索引表 (Inverted Index)都沒有包含搜索引擎所下載的網(wǎng)頁的傾向性值和搜索項所分解的關(guān)鍵 字的傾向性值。因此,現(xiàn)有的搜索引擎并不會將搜索結(jié)果的傾向性值作為搜索結(jié)果的排序 因素。例如,搜索某個品牌的空調(diào)(假設(shè)為HHXX),使用現(xiàn)有的主流搜索引擎,輸入搜索項 "HHXX空調(diào)”,結(jié)果排名靠前的幾個搜索網(wǎng)頁都是該空調(diào)的廠家介紹和各個銷售點、維修點 的介紹?,F(xiàn)有的搜索引擎返回的搜索結(jié)果中,并沒有考慮包含‘‘HHXX空調(diào)”的網(wǎng)頁的傾向性 值和“HHXX空調(diào)”關(guān)鍵字本身的傾向性值。顯然,如果搜索用戶想知道第三方的評價,還需 要再輸入更多的關(guān)鍵字,并點擊、瀏覽排序靠后的網(wǎng)頁。在當前的搜索引擎中,用戶想要獲 得對某個產(chǎn)品、人、地名、機構(gòu)等的評價,需要付出很多的時間和精力。另外,如果現(xiàn)有的搜索引擎想獲得網(wǎng)頁中的命名體的傾向性值,也只能在搜索完 畢后,再對搜索結(jié)果中的命名體做傾向性分析,也即在線處理。這樣的滯后的在線處理的缺 點是速度比較慢,并且所分析的網(wǎng)頁數(shù)量也受限制。
發(fā)明內(nèi)容
有鑒于現(xiàn)有技術(shù)的上述缺陷,本發(fā)明所要解決的技術(shù)問題是提供一種根據(jù)傾向性 值進行網(wǎng)頁搜索的方法和裝置,將含有搜索關(guān)鍵字的網(wǎng)頁主要按照傾向性值排序,從而使 傾向性為貶義或褒義的網(wǎng)頁排名靠前,提升用戶的搜索滿意度。為實現(xiàn)上述目的,本發(fā)明提供了一種根據(jù)傾向性值進行網(wǎng)頁搜索的方法,包括以 下步驟A)、獲取若干網(wǎng)頁,并下載至網(wǎng)頁數(shù)據(jù)庫;B)、對所述若干網(wǎng)頁的文字進行命名體識別;C)、對所述若干網(wǎng)頁中的若干命名體進行傾向性分析,獲得所述若干網(wǎng)頁的所述若干命名體的傾向性值;D)、制作前向索引表,所述前向索引表包括所述若干命名體的傾向性值;E)、制作倒排索引表,所述倒排索引表包括所述若干命名體的傾向性值;F)、輸入搜索項,將所述搜索項分解為至少一個關(guān)鍵字;G)、根據(jù)所述倒排索引表,計算包括所述關(guān)鍵字的網(wǎng)頁的排序權(quán)值,輸出搜索結(jié)^ ο進一步地,所述步驟A)和步驟G)之間還包括步驟A’)、對所述若干網(wǎng)頁以篇章級 別整體進行傾向性分析,獲得所述若干網(wǎng)頁的篇章級傾向性值,制作網(wǎng)頁篇章級傾向性值 表;在所述步驟G)中,根據(jù)所述倒排索引表和所述網(wǎng)頁篇章級傾向性值表,計算包括所述 關(guān)鍵字的網(wǎng)頁的排序權(quán)值,輸出搜索結(jié)果。進一步地,所述步驟B)還包括以下步驟Bi)、掃描每個所述若干網(wǎng)頁,為每個所述若干網(wǎng)頁作詞語切分,記錄每個詞語在 每個所述若干網(wǎng)頁中的位置;B2)、為所述每個詞語作詞性標注;B3)、判斷所述每個詞語是否為命名體。進一步地,所述若干命名體的傾向性值根據(jù)褒貶極性詞詞典、程度詞詞典、否定詞 詞典、詞匯搭配詞典,由褒義詞、貶義詞、否定詞、程度詞、詞匯搭配、句式判斷綜合決定??商鎿Q地,所述若干命名體的傾向性值根據(jù)褒貶極性詞詞典、程度詞詞典、否定詞 詞典、詞匯搭配詞典,由褒義詞、貶義詞、否定詞、程度詞、詞匯搭配、句式判斷綜合決定;所 述若干網(wǎng)頁的篇章級傾向性值根據(jù)褒貶極性詞詞典、程度詞詞典、否定詞詞典、詞匯搭配詞 典,由褒義詞、貶義詞、否定詞、程度詞、詞匯搭配、句式判斷、段落結(jié)構(gòu)綜合決定。進一步地,根據(jù)所述倒排索引表,如果所述關(guān)鍵字是命名體,且所述命名體的傾向 性值的絕對值大于零,則提高所述關(guān)鍵字所屬網(wǎng)頁的排序權(quán)值。進一步地,所述排序權(quán)值由所述命名體的傾向性值、網(wǎng)頁所在域名的權(quán)威性、網(wǎng)頁 的受歡迎程度、所述關(guān)鍵字是否出現(xiàn)在網(wǎng)址、標題、錨文本或元標簽中,網(wǎng)頁的訪問流量和 點進率、網(wǎng)頁所在網(wǎng)站的受歡迎程度綜合決定。優(yōu)選地,所述關(guān)鍵字所屬網(wǎng)頁的排序權(quán)值由所述倒排索引表中的命名體的傾向性
值決定??商鎿Q地,根據(jù)所述倒排索引表,如果所述關(guān)鍵字是命名體,且所述命名體的傾向 性值的絕對值大于零,則提高所述關(guān)鍵字所屬網(wǎng)頁的排序權(quán)值;如果所述關(guān)鍵字所屬網(wǎng)頁 的篇章級傾向性值的絕對值大于零,則提高所述關(guān)鍵字所屬網(wǎng)頁的排序權(quán)值。進一步地,所述排序權(quán)值由所述命名體的傾向性值、網(wǎng)頁的篇章級傾向性值、網(wǎng)頁 所在域名的權(quán)威性、網(wǎng)頁的受歡迎程度、所述關(guān)鍵字是否出現(xiàn)在網(wǎng)址、標題、錨文本或元標 簽中,網(wǎng)頁的訪問流量和點進率、網(wǎng)頁所在網(wǎng)站的受歡迎程度綜合決定。優(yōu)選地,所述關(guān)鍵字所屬網(wǎng)頁的排序權(quán)值由所述倒排索引表中的命名體的傾向性 值和所述網(wǎng)頁篇章級傾向性值表中的網(wǎng)頁的篇章級傾向性值決定。為實現(xiàn)上述目的,本發(fā)明還提供了另一種根據(jù)傾向性值進行網(wǎng)頁搜索的方法,包 括以下步驟A)、獲取若干網(wǎng)頁,并下載至網(wǎng)頁數(shù)據(jù)庫;
6
B)、對所述若干網(wǎng)頁以篇章級別整體進行傾向性分析,獲得所述若干網(wǎng)頁的篇章 級傾向性值,制作網(wǎng)頁篇章級傾向性值表;C)、輸入搜索項,將所述搜索項分解為至少一個關(guān)鍵字;D)、根據(jù)所述網(wǎng)頁篇章級傾向性值表,計算包括所述關(guān)鍵字的網(wǎng)頁的排序權(quán)值,輸 出搜索結(jié)果。進一步地,所述排序權(quán)值由網(wǎng)頁的篇章級傾向性值、網(wǎng)頁所在域名的權(quán)威性、網(wǎng)頁 的受歡迎程度、所述關(guān)鍵字是否出現(xiàn)在網(wǎng)址、標題、錨文本或元標簽中,網(wǎng)頁的訪問流量和 點進率、網(wǎng)頁所在網(wǎng)站的受歡迎程度綜合決定。優(yōu)選地,所述關(guān)鍵字所屬網(wǎng)頁的排序權(quán)值由所述網(wǎng)頁篇章級傾向性值表中的網(wǎng)頁 的篇章級傾向性值決定。為實現(xiàn)上述目的,本發(fā)明還提供了一種根據(jù)傾向性值進行網(wǎng)頁搜索的裝置,包括 網(wǎng)頁獲取器,用于獲取并下載若干網(wǎng)頁;網(wǎng)頁數(shù)據(jù)庫,用于儲存下載的所述若干網(wǎng)頁;命名 體識別器,用于對所述若干網(wǎng)頁的文字進行命名體識別;傾向性分析器,用于對所述若干 網(wǎng)頁中的若干命名體進行文本傾向性分析,獲得所述若干網(wǎng)頁的所述若干命名體的傾向性 值;索引器,用于制作包括所述若干命名體的傾向性值的前向索引表和倒排索引表;索引 數(shù)據(jù)庫,用于存儲所述前向索引表和所述倒排索引表;搜索器,用于將搜索項分解為至少一 個關(guān)鍵字,根據(jù)所述倒排索引表,計算包括所述關(guān)鍵字的網(wǎng)頁的排序權(quán)值,輸出搜索結(jié)果。進一步地,所述傾向性分析器還用于對所述若干網(wǎng)頁以篇章級別整體進行傾向性 分析,獲得所述若干網(wǎng)頁的篇章級傾向性值,制作網(wǎng)頁篇章級傾向性值表;所述搜索器根據(jù) 所述倒排索引表和所述網(wǎng)頁篇章級傾向性值表,計算包括所述關(guān)鍵字的網(wǎng)頁的排序權(quán)值, 輸出搜索結(jié)果。為實現(xiàn)上述目的,本發(fā)明還提供了一種根據(jù)傾向性值進行網(wǎng)頁搜索的裝置,包括 網(wǎng)頁獲取器,用于獲取并下載若干網(wǎng)頁;網(wǎng)頁數(shù)據(jù)庫,用于儲存下載的所述若干網(wǎng)頁;傾向 性分析器,用于對所述若干網(wǎng)頁以篇章級別整體進行傾向性分析,獲得所述若干網(wǎng)頁的篇 章級傾向性值,制作網(wǎng)頁篇章級傾向性值表;搜索器,用于將搜索項分解為至少一個關(guān)鍵 字,根據(jù)所述網(wǎng)頁篇章級傾向性值表,計算包括所述關(guān)鍵字的網(wǎng)頁的排序權(quán)值,輸出搜索結(jié)果。本發(fā)明的有益效果在于本發(fā)明的根據(jù)傾向性值進行網(wǎng)頁搜索的方法和裝置中的前向索引表和倒排索引 表都包括了命名體的傾向性值。通過查詢命名體的傾向性值,搜索引擎可以提高傾向性值 的絕對值較大的網(wǎng)頁的排序權(quán)值,從而使具有明顯傾向性的網(wǎng)頁的排名靠前,以提升用戶 的搜索滿意度。進一步地,再通過查詢網(wǎng)頁篇章級傾向性值表,搜索引擎也可以提高傾向性值的 絕對值較大的網(wǎng)頁的排序權(quán)值,從而使具有明顯傾向性的網(wǎng)頁的排名靠前,以提升用戶的 搜索滿意度。網(wǎng)頁的排序權(quán)值可以由多種因素綜合決定,也可以僅由命名體的傾向性值和/或 網(wǎng)頁的篇章級傾向性值決定。搜索引擎可以根據(jù)搜索用戶的需求而定義。本發(fā)明的根據(jù)傾向性值進行網(wǎng)頁搜索的方法和裝置可以直接從倒排索引表中獲 得每個網(wǎng)頁中的命名體的傾向性值,而不需要大量的實時運算來獲得網(wǎng)頁中的命名體的傾向性值。同樣,網(wǎng)頁的篇章級傾向性值也可以直接從網(wǎng)頁篇章級傾向性值表獲得,而不需要 大量的實時運算獲得網(wǎng)頁的傾向性值。本發(fā)明的根據(jù)傾向性值進行網(wǎng)頁搜索的方法和裝置 具有較低的時間復(fù)雜度,從而能提高搜索的響應(yīng)速度,為用戶帶來更快捷的搜索體驗。
圖1為本發(fā)明的根據(jù)傾向性值進行網(wǎng)頁搜索的方法的第一實施例的流程圖;圖2為本發(fā)明的根據(jù)傾向性值進行網(wǎng)頁搜索的方法的前向索引表的結(jié)構(gòu)示意圖;圖3為本發(fā)明的根據(jù)傾向性值進行網(wǎng)頁搜索的方法的倒排索引表的結(jié)構(gòu)示意圖;圖4為本發(fā)明的根據(jù)傾向性值進行網(wǎng)頁搜索的方法的第二實施例的流程圖;圖5為本發(fā)明的根據(jù)傾向性值進行網(wǎng)頁搜索的方法的網(wǎng)頁篇章級傾向性值表的 結(jié)構(gòu)示意圖;圖6為本發(fā)明的根據(jù)傾向性值進行網(wǎng)頁搜索的方法的第三實施例的流程圖;圖7為本發(fā)明的根據(jù)傾向性值進行網(wǎng)頁搜索的裝置的第一實施例的結(jié)構(gòu)示意圖;圖8為本發(fā)明的根據(jù)傾向性值進行網(wǎng)頁搜索的裝置的第二實施例的結(jié)構(gòu)示意圖。
具體實施例方式以下將結(jié)合附圖對本發(fā)明的構(gòu)思、具體結(jié)構(gòu)及產(chǎn)生的技術(shù)效果作進一步說明,以 充分地了解本發(fā)明的目的、特征和效果。如圖1所示,本發(fā)明公開了一種根據(jù)傾向性值進行網(wǎng)頁搜索的方法,包括以下步 驟步驟101、獲取若干網(wǎng)頁,并下載至網(wǎng)頁數(shù)據(jù)庫;搜索引擎公司通過網(wǎng)頁獲取器從互聯(lián)網(wǎng)上獲取若干網(wǎng)頁,并將若干網(wǎng)頁下載至搜 索引擎公司的計算機中,也即網(wǎng)頁數(shù)據(jù)庫中。步驟102、對若干網(wǎng)頁的文字進行命名體識別;首先,命名體識別器掃描每個網(wǎng)頁,為每個網(wǎng)頁上的文字作詞語切分,并作詞性標 注;其次,命名體識別器判斷切分出的這些詞語是否為命名體。如果為命名體,則將命 名體進一步區(qū)分為人名、地名、機構(gòu)名、產(chǎn)品名等。步驟103、對若干網(wǎng)頁中的若干命名體進行傾向性分析,獲得若干網(wǎng)頁的若干命名 體的傾向性值;傾向性分析器會對網(wǎng)頁中的命名體進行傾向性分析,獲得每一命名體的傾向性值 (褒貶值)。傾向性值的閾值范圍可以任意設(shè)定,比如設(shè)定為_3至+3,負數(shù)表示貶義,正 數(shù)表示褒義。傾向性值的數(shù)值越大,褒義的程度越高;傾向性值的數(shù)值越小,貶義的程度越 高。傾向性值根據(jù)褒貶極性詞詞典、程度詞詞典、否定詞詞典、詞匯搭配詞典,由褒義詞、貶 義詞、否定詞、程度詞、詞匯搭配、句式判斷綜合決定。步驟104、制作前向索引表,前向索引表包括若干命名體的傾向性值;首先,索引器掃描每個網(wǎng)頁,為每個網(wǎng)頁作詞語切分,記錄每個詞語在網(wǎng)頁中的位 置,也即偏移量等信息(由于步驟102已進行過上述操作,此步驟可省略);其次,根據(jù)命名體識別器的識別結(jié)果,如果某個詞語是命名體,則將其標記為命名體(由于步驟102已進行過上述操作,此步驟可省略));再次,如果某個詞語是命名體,根據(jù)傾向性分析器的分析結(jié)果,將命名體的傾向性 值(褒貶值)寫入前向索引表中。請參閱圖2,前向索引表包括每個詞語的網(wǎng)頁序列號docid,每個詞語wordl、
word2、word3......,每個詞語的序列號word idl、word id2、word id3......,每個詞語是否
為命名體的標識is_entityl、is_entity2、is_entity3……,每個命名體的傾向性值(褒貶
值)sentiment_valuel、sentiment_value2、sentiment_value3......。一個網(wǎng)頁艮口對應(yīng)一個
前向索引表,也即每個網(wǎng)頁都有自己的前向索引表。在一個前向索引表中,每個詞語的網(wǎng)頁序列號、每個詞語、每個詞語的序列號是唯 一的。但是,每個詞語的傾向性值可以為零個、一個或多個。因為同一詞語可以在一個網(wǎng)頁 中多處出現(xiàn),且可以作為命名體不出現(xiàn)、或者一次或多次出現(xiàn)。當然,前向索引表還可以包括每個詞語在網(wǎng)頁中的位置,也即偏移量等信息。但由 于偏移量等信息在現(xiàn)有的搜索引擎中已廣泛使用,故在此不再贅述。步驟105、制作倒排索引表,倒排索引表包括若干命名體的傾向性值;請參閱圖3,倒排索引表包括每個詞語wordl、word2、word3……,每個詞語
的序列號word idl、word id2、word id3......,包含每個詞語的網(wǎng)頁數(shù)量ndocsl、
ndocs2、ndocs3......,每個詞語的網(wǎng)頁序列號 docidl、docid2、docid3、docid4、docid5、
docid6......,每個詞語是否為命名體的標識 is_entityl、is_entity2、is_entity3、is_
entity4、is_entity5、is_entity6......,每個命名體的傾向性值(褒貶值)sentiment—
valuel、 sentiment_value2> sentiment_value3> sentiment_value4> sentiment_value5> sentiment_value6……。一個倒排索引表包含了所有下載到網(wǎng)頁數(shù)據(jù)庫中的網(wǎng)頁的信息。 每個詞語、每個詞語的序列號、包含每個詞語的網(wǎng)頁數(shù)量是唯一的。但是,每個詞語的網(wǎng)頁 序列號、每個詞語的傾向性值可以為零個、一個或多個。因為一個詞語可以在一個網(wǎng)頁中多 處出現(xiàn),且可以作為命名體不出現(xiàn)、或者一次或多次出現(xiàn)。當然,倒排索引表還可以包括每個詞語在網(wǎng)頁中的位置,也即偏移量等信息。但由 于偏移量等信息在現(xiàn)有的搜索引擎中已廣泛使用,故在此不再贅述。步驟106、輸入搜索項,將搜索項分解為至少一個關(guān)鍵字;用戶輸入搜索項,搜索器將搜索項分解為多個關(guān)鍵字。當然,用戶輸入的搜索項也 可能本身即為一個關(guān)鍵字,搜索器則不需對此進行分解。步驟107、根據(jù)倒排索引表,計算包括關(guān)鍵字的網(wǎng)頁的排序權(quán)值,輸出搜索結(jié)果。在包含所述關(guān)鍵字的網(wǎng)頁中,根據(jù)倒排索引表,判斷該關(guān)鍵字是否是命名體(人 名、地名、機構(gòu)名、產(chǎn)品名等)。如果是命名體,且其傾向性值的絕對值較大(也即褒義或貶 義的程度較深),提高該關(guān)鍵字所屬網(wǎng)頁的排序權(quán)值;如果該關(guān)鍵字不是命名體(人名、地 名、機構(gòu)名、產(chǎn)品名等),降低該關(guān)鍵字所屬網(wǎng)頁的排序權(quán)值。圖4為本發(fā)明的根據(jù)傾向性值進行網(wǎng)頁搜索的方法的第二實施例的流程圖。如圖 4所示,本實施例與第一實施例的區(qū)別在于,在步驟101和步驟107’之間,還包括步驟201、 對若干網(wǎng)頁以篇章級別整體進行傾向性分析,獲得若干網(wǎng)頁的篇章級傾向性值,制作網(wǎng)頁 篇章級傾向性值表。所謂篇章級別,也即以一篇文章為單位。一般而言,一個網(wǎng)頁往往即是一篇文章。如果一個網(wǎng)頁有多篇文章,則仍以一個網(wǎng)頁中的一篇文章為單位進行傾向性分析;如果一 篇文章較長,分散于多個網(wǎng)頁中,則仍以這多個網(wǎng)頁所構(gòu)成的一篇文章為單位進行傾向性 分析。以一篇文章為單位進行傾向性分析,獲得這篇文章的傾向性值,也即篇章級傾向性 值。對網(wǎng)頁上所涵蓋的多篇文章進行傾向性分析,獲得多個篇章級傾向性值,從而再制作網(wǎng) 頁篇章級傾向性值表。請參閱圖5,網(wǎng)頁篇章級傾向性值表包括網(wǎng)頁序列號docidl、docidU docid2、 docid3、docid4、docid5、docid6……和對應(yīng)于每個網(wǎng)頁的篇章級傾向性值(褒貶值)doc_ sentiment_valuel、 doc_sentiment_value2> doc_sentiment_value3> doc_sentiment_
value4、doc_sentiment_value5、doc_sentiment_value6......。網(wǎng)頁序列號、每個網(wǎng)頁的
篇章級傾向性值是唯一的。如果一個網(wǎng)頁不只一篇文章,而有多篇文章,則可以再設(shè)置 subdocid字段對一個網(wǎng)頁的多篇文章進行細分。例如某個網(wǎng)頁有三篇文章,則這三篇文章 的docid相同,但分別有不同的subdocid (例如分別為O、1、2)。在本實施例中,步驟201位于步驟105和步驟106之間,但本發(fā)明并不限于此,步 驟201可以位于步驟101和步驟107,之間的任一位置。在步驟107’中,計算網(wǎng)頁的排序權(quán)值除了考慮倒排索引表,還需要考慮網(wǎng)頁篇章 級傾向性值表。本實施例兼顧了命名體的傾向性值和網(wǎng)頁的篇章級傾向性值。圖6為本發(fā)明的根據(jù)傾向性值進行網(wǎng)頁搜索的方法的第三實施例的流程圖。如圖 6所示,該實施例的根據(jù)傾向性值進行網(wǎng)頁搜索的方法包括如下步驟步驟301、同第一實施例和第二實施例的步驟101 ;步驟302、同第二實施例的步驟201 ;步驟303、同第一實施例和第二實施例的步驟106 ;步驟304、根據(jù)網(wǎng)頁篇章級傾向性值表,計算包括關(guān)鍵字的網(wǎng)頁的排序權(quán)值,輸出 搜索結(jié)果。在本實施例中,只考慮網(wǎng)頁的篇章級傾向性值,而不考慮命名體的傾向性值。另外,由于本實施例的前向索引表和倒排索引表與現(xiàn)有技術(shù)的前向索引表和倒排 索引表并無區(qū)別,屬于非常成熟的現(xiàn)有技術(shù)。因此,雖然本實施例并沒有列出制作前向索引 表和制作倒排索引表的步驟,但制作前向索引表和制作倒排索引表的步驟是默認涵蓋在本 實施的方法中的。制作前向索引表和制作倒排索引表的步驟位于步驟301和步驟303之間, 制作前向索引表和制作倒排索引表的步驟可以同時位于步驟302之前;也可以同時位于步 驟302之后;也可以制作前向索引表的步驟位于步驟302之前,而制作倒排索引表的步驟位 于步驟302之后。圖7為本發(fā)明的根據(jù)傾向性值進行網(wǎng)頁搜索的裝置的第一實施例的結(jié)構(gòu)示意圖。 如圖7所示,本發(fā)明還提供了 一種根據(jù)傾向性值進行網(wǎng)頁搜索的裝置,也即搜索引擎40,包 括網(wǎng)頁獲取器401,用于獲取并下載若干網(wǎng)頁;網(wǎng)頁數(shù)據(jù)庫402,用于儲存下載的若干網(wǎng)頁; 命名體識別器403對網(wǎng)頁作詞語切分,并作詞性標注,然后將命名體從這些詞語中識別出 來;傾向性分析器404綜合考慮網(wǎng)頁的褒義詞、貶義詞、否定詞、程度詞、詞匯搭配、句式等 因素,計算出命名體的傾向性值;索引器405,為若干網(wǎng)頁制作包括命名體的傾向性值的前 向索引表和倒排索引表;索引數(shù)據(jù)庫406,用于存儲前向索引表和倒排索引表;搜索器407, 用于將搜索項分解為至少一個關(guān)鍵字,根據(jù)倒排索引表,計算包含關(guān)鍵字的網(wǎng)頁的排序權(quán)
10值,輸出搜索結(jié)果。網(wǎng)頁獲取器401、網(wǎng)頁數(shù)據(jù)庫402、命名體識別器403、傾向性分析器404、索引器 405、索引數(shù)據(jù)庫406、搜索器407依次連接。搜索引擎40將最終的搜索結(jié)果返回至搜索用 戶 408。作為本發(fā)明的另一實施例,傾向性分析器404除了用于計算出命名體的傾向性值 外,還可用于計算出若干網(wǎng)頁的篇章級傾向性值,制作網(wǎng)頁篇章級傾向性值表。由此,搜索 器407則會根據(jù)倒排索引表和網(wǎng)頁篇章級傾向性值表,計算出包含關(guān)鍵字的網(wǎng)頁的排序權(quán)值。圖8為本發(fā)明的根據(jù)傾向性值進行網(wǎng)頁搜索的裝置的第二實施例的結(jié)構(gòu)示意圖。 如圖8所示,本實施例的搜索引擎40’與實施例一的搜索引擎40的區(qū)別在于,傾向性分析器 403’只用于計算出若干網(wǎng)頁的篇章級傾向性值,制作網(wǎng)頁篇章級傾向性值表。搜索器404’ 根據(jù)網(wǎng)頁篇章級傾向性值表,計算包含關(guān)鍵字的網(wǎng)頁的排序權(quán)值。此外,由于本實施例的索引器和索引數(shù)據(jù)庫與現(xiàn)有技術(shù)的索引器和索引數(shù)據(jù)庫并 無區(qū)別,屬于非常成熟的現(xiàn)有技術(shù)。因此,雖然本實施例并沒有列出索引器和索引數(shù)據(jù)庫, 但索引器和索引數(shù)據(jù)庫是默認包括在本實施的裝置中的。以下,以一個具體的示例對本發(fā)明的方法和裝置作進一步說明。第一網(wǎng)頁的全部內(nèi)容如下通體有精美彩繪的銅車馬精巧絕倫,青銅鑄成的馭手專注的眼神栩栩如生,車傘 蓋非常華麗。第一網(wǎng)頁也通過網(wǎng)頁獲取器401,被下載至搜索引擎公司的計算機,也即網(wǎng)頁數(shù)據(jù) 庫402。命名體識別器403對第一網(wǎng)頁作詞語切分,并作詞性標注。其次,命名體識別器403 將命名體從這些詞語中識別出來。具體而言,從第一網(wǎng)頁中識別出如下命名體銅車馬、馭 手、車傘蓋。傾向性分析器404對第一網(wǎng)頁作篇章級傾向性分析,第一網(wǎng)頁含有如下褒義詞匯 或短語精美、精巧絕倫、栩栩如生、華麗;含有程度詞非常華麗中的“非?!?;不含貶義詞 匯或短語。綜合考慮第一網(wǎng)頁的褒義詞、貶義詞、否定詞、程度詞、詞匯搭配、句式等因素,第 一網(wǎng)頁的傾向性值為+3(貶義到褒義的閾值范圍在該示例中定義為[_3,+3],-3的傾向性 值為最貶,+3的傾向性值為最褒)。然后,傾向性分析器404對命名體進行傾向性分析。命 名體“銅車馬”包括命名體“馭手”、“車傘蓋”(銅車馬由馭手、車傘蓋組成),其傾向性值為 +3。命名體“馭手”含有一個褒義詞“栩栩如生”,其傾向性值為+2。命名體“車傘蓋”含有 一個褒義詞“華麗”,其傾向性值也為+2。需要說明的是,貶義到褒義的閾值范圍可以任意設(shè)定,例如[-5,+5]、[-8,+8]、 [-16,+16]等。另外,網(wǎng)頁的篇章級傾向性分析、命名體的傾向性分析并無先后順序之分, 也可以先作命名體的傾向性分析,再作網(wǎng)頁的篇章級傾向性分析?;蛘咧蛔骶W(wǎng)頁的篇章級 傾向性分析,或只作命名體的傾向性分析。索引器405制作前向索引表,并存入索引數(shù)據(jù)庫406。第一網(wǎng)頁的前向索引表如表
一所示。表一第一網(wǎng)頁的前向索引表
權(quán)利要求
1.一種根據(jù)傾向性值進行網(wǎng)頁搜索的方法,其特征在于,包括以下步驟A)、獲取若干網(wǎng)頁,并下載至網(wǎng)頁數(shù)據(jù)庫;B)、對所述若干網(wǎng)頁的文字進行命名體識別;C)、對所述若干網(wǎng)頁中的若干命名體進行傾向性分析,獲得所述若干網(wǎng)頁的所述若干 命名體的傾向性值;D)、制作前向索引表,所述前向索引表包括所述若干命名體的傾向性值;E)、制作倒排索引表,所述倒排索引表包括所述若干命名體的傾向性值;F)、輸入搜索項,將所述搜索項分解為至少一個關(guān)鍵字;G)、至少根據(jù)所述倒排索引表,計算包括所述關(guān)鍵字的網(wǎng)頁的排序權(quán)值,輸出搜索結(jié)^ ο
2.如權(quán)利要求1所述的根據(jù)傾向性值進行網(wǎng)頁搜索的方法,其特征在于,所述步驟A) 和步驟G)之間還包括步驟A’)、對所述若干網(wǎng)頁以篇章級別整體進行傾向性分析,獲得所 述若干網(wǎng)頁的篇章級傾向性值,制作網(wǎng)頁篇章級傾向性值表;在所述步驟G)中,根據(jù)所述 倒排索引表和所述網(wǎng)頁篇章級傾向性值表,計算包括所述關(guān)鍵字的網(wǎng)頁的排序權(quán)值,輸出 搜索結(jié)果。
3.如權(quán)利要求1或2所述的根據(jù)傾向性值進行網(wǎng)頁搜索的方法,其特征在于,所述步驟 B)還包括以下步驟Bi)、掃描每個所述若干網(wǎng)頁,為每個所述若干網(wǎng)頁作詞語切分,記錄每個詞語在每個 所述若干網(wǎng)頁中的位置;B2)、為所述每個詞語作詞性標注;B3)、判斷所述每個詞語是否為命名體。
4.如權(quán)利要求1所述的根據(jù)傾向性值進行網(wǎng)頁搜索的方法,其特征在于,所述若干命 名體的傾向性值根據(jù)褒貶極性詞詞典、程度詞詞典、否定詞詞典、詞匯搭配詞典,由褒義詞、 貶義詞、否定詞、程度詞、詞匯搭配、句式判斷綜合決定。
5.如權(quán)利要求2所述的根據(jù)傾向性值進行網(wǎng)頁搜索的方法,其特征在于,所述若干命 名體的傾向性值根據(jù)褒貶極性詞詞典、程度詞詞典、否定詞詞典、詞匯搭配詞典,由褒義詞、 貶義詞、否定詞、程度詞、詞匯搭配、句式判斷綜合決定;所述若干網(wǎng)頁的篇章級傾向性值根 據(jù)褒貶極性詞詞典、程度詞詞典、否定詞詞典、詞匯搭配詞典,由褒義詞、貶義詞、否定詞、程 度詞、詞匯搭配、句式判斷、段落結(jié)構(gòu)綜合決定。
6.如權(quán)利要求1所述的根據(jù)傾向性值進行網(wǎng)頁搜索的方法,其特征在于,根據(jù)所述倒 排索引表,如果所述關(guān)鍵字是命名體,且所述命名體的傾向性值的絕對值大于零,則提高所 述關(guān)鍵字所屬網(wǎng)頁的排序權(quán)值。
7.如權(quán)利要求6所述的根據(jù)傾向性值進行網(wǎng)頁搜索的方法,其特征在于,所述排序權(quán) 值由所述命名體的傾向性值、網(wǎng)頁所在域名的權(quán)威性、網(wǎng)頁的受歡迎程度、所述關(guān)鍵字是否 出現(xiàn)在網(wǎng)址、標題、錨文本或元標簽中,網(wǎng)頁的訪問流量和點進率、網(wǎng)頁所在網(wǎng)站的受歡迎 程度綜合決定。
8.如權(quán)利要求6所述的根據(jù)傾向性值進行網(wǎng)頁搜索的方法,其特征在于,所述關(guān)鍵字 所屬網(wǎng)頁的排序權(quán)值由所述倒排索引表中的命名體的傾向性值決定。
9.如權(quán)利要求2所述的根據(jù)傾向性值進行網(wǎng)頁搜索的方法,其特征在于,根據(jù)所述倒排索引表,如果所述關(guān)鍵字是命名體,且所述命名體的傾向性值的絕對值大于零,則提高所 述關(guān)鍵字所屬網(wǎng)頁的排序權(quán)值;如果所述關(guān)鍵字所屬網(wǎng)頁的篇章級傾向性值的絕對值大于 零,則提高所述關(guān)鍵字所屬網(wǎng)頁的排序權(quán)值。
10.如權(quán)利要求9所述的根據(jù)傾向性值進行網(wǎng)頁搜索的方法,其特征在于,所述排序權(quán) 值由所述命名體的傾向性值、網(wǎng)頁的篇章級傾向性值、網(wǎng)頁所在域名的權(quán)威性、網(wǎng)頁的受歡 迎程度、所述關(guān)鍵字是否出現(xiàn)在網(wǎng)址、標題、錨文本或元標簽中,網(wǎng)頁的訪問流量和點進率、 網(wǎng)頁所在網(wǎng)站的受歡迎程度綜合決定。
11.如權(quán)利要求9所述的根據(jù)傾向性值進行網(wǎng)頁搜索的方法,其特征在于,所述關(guān)鍵字 所屬網(wǎng)頁的排序權(quán)值由所述倒排索引表中的命名體的傾向性值和所述網(wǎng)頁篇章級傾向性 值表中的網(wǎng)頁的篇章級傾向性值決定。
12.一種根據(jù)傾向性值進行網(wǎng)頁搜索的方法,其特征在于,包括以下步驟A)、獲取若干網(wǎng)頁,并下載至網(wǎng)頁數(shù)據(jù)庫;B)、對所述若干網(wǎng)頁以篇章級別整體進行傾向性分析,獲得所述若干網(wǎng)頁的篇章級傾 向性值,制作網(wǎng)頁篇章級傾向性值表;C)、輸入搜索項,將所述搜索項分解為至少一個關(guān)鍵字;D)、根據(jù)所述網(wǎng)頁篇章級傾向性值表,計算包括所述關(guān)鍵字的網(wǎng)頁的排序權(quán)值,輸出搜索結(jié)果。
13.如權(quán)利要求12所述的根據(jù)傾向性值進行網(wǎng)頁搜索的方法,其特征在于,所述排序 權(quán)值由網(wǎng)頁的篇章級傾向性值、網(wǎng)頁所在域名的權(quán)威性、網(wǎng)頁的受歡迎程度、所述關(guān)鍵字是 否出現(xiàn)在網(wǎng)址、標題、錨文本或元標簽中,網(wǎng)頁的訪問流量和點進率、網(wǎng)頁所在網(wǎng)站的受歡 迎程度綜合決定。
14.如權(quán)利要求12所述的根據(jù)傾向性值進行網(wǎng)頁搜索的方法,其特征在于,所述關(guān)鍵 字所屬網(wǎng)頁的排序權(quán)值由所述網(wǎng)頁篇章級傾向性值表中的網(wǎng)頁的篇章級傾向性值決定。
15.一種根據(jù)傾向性值進行網(wǎng)頁搜索的裝置,其特征在于,包括網(wǎng)頁獲取器,用于獲取并下載若干網(wǎng)頁;網(wǎng)頁數(shù)據(jù)庫,用于儲存下載的所述若干網(wǎng)頁;命名體識別器,用于對所述若干網(wǎng)頁的文字進行命名體識別;傾向性分析器,用于對所述若干網(wǎng)頁中的若干命名體進行文本傾向性分析,獲得所述 若干網(wǎng)頁的所述若干命名體的傾向性值;索引器,用于制作包括所述若干命名體的傾向性值的前向索引表和倒排索引表;索引數(shù)據(jù)庫,用于存儲所述前向索引表和所述倒排索引表;搜索器,用于將搜索項分解為至少一個關(guān)鍵字,至少根據(jù)所述倒排索引表,計算包括所 述關(guān)鍵字的網(wǎng)頁的排序權(quán)值,輸出搜索結(jié)果。
16.如權(quán)利要求15所述的根據(jù)傾向性值進行網(wǎng)頁搜索的裝置,其特征在于,所述傾向 性分析器還用于對所述若干網(wǎng)頁以篇章級別整體進行傾向性分析,獲得所述若干網(wǎng)頁的篇 章級傾向性值,制作網(wǎng)頁篇章級傾向性值表;所述搜索器根據(jù)所述倒排索引表和所述網(wǎng)頁 篇章級傾向性值表,計算包括所述關(guān)鍵字的網(wǎng)頁的排序權(quán)值,輸出搜索結(jié)果。
17.一種根據(jù)傾向性值進行網(wǎng)頁搜索的裝置,其特征在于,包括網(wǎng)頁獲取器,用于獲取并下載若干網(wǎng)頁;網(wǎng)頁數(shù)據(jù)庫,用于儲存下載的所述若干網(wǎng)頁;傾向性分析器,用于對所述若干網(wǎng)頁以篇章級別整體進行傾向性分析,獲得所述若干 網(wǎng)頁的篇章級傾向性值,制作網(wǎng)頁篇章級傾向性值表;搜索器,用于將搜索項分解為至少一個關(guān)鍵字,根據(jù)所述網(wǎng)頁篇章級傾向性值表,計算 包括所述關(guān)鍵字的網(wǎng)頁的排序權(quán)值,輸出搜索結(jié)果。
全文摘要
本發(fā)明公開了一種根據(jù)傾向性值進行網(wǎng)頁搜索的方法和裝置。該方法包括以下步驟A)、獲取若干網(wǎng)頁,并下載至網(wǎng)頁數(shù)據(jù)庫;B)、對若干網(wǎng)頁的文字進行命名體識別;C)、對若干網(wǎng)頁中的若干命名體進行傾向性分析,獲得若干網(wǎng)頁的若干命名體的傾向性值;D)、制作前向索引表,前向索引表包括若干命名體的傾向性值;E)、制作倒排索引表,倒排索引表包括若干命名體的傾向性值;F)、輸入搜索項,將搜索項分解為至少一個關(guān)鍵字;G)、根據(jù)倒排索引表,計算包括關(guān)鍵字的網(wǎng)頁的排序權(quán)值,輸出搜索結(jié)果。通過本發(fā)明的方法和裝置,將含有搜索關(guān)鍵字的網(wǎng)頁主要按照傾向性值排序,從而使傾向性為貶義或褒義的網(wǎng)頁排名靠前,提升用戶的搜索滿意度。
文檔編號G06F17/30GK102110160SQ20111004486
公開日2011年6月29日 申請日期2011年2月24日 優(yōu)先權(quán)日2011年2月24日
發(fā)明者杜一華 申請人:上海萊希信息科技有限公司, 上海語天信息技術(shù)有限公司, 杜一華