專利名稱:摘要式網(wǎng)絡(luò)搜索引擎系統(tǒng)及其搜索方法與應(yīng)用的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)信息處理領(lǐng)域,特別涉及一種摘要式網(wǎng)絡(luò)搜索引擎 系統(tǒng)及其搜索方法與應(yīng)用。
背景技術(shù):
近年來(lái)互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展深刻的影響了人類的信息獲取和決策模 式。為了幫助用戶在互聯(lián)網(wǎng)上數(shù)以百億計(jì)的網(wǎng)頁(yè)中精確而迅速地獲得他們 所需的信息,傳統(tǒng)的搜索引擎公司,如百度、雅虎和谷歌等開(kāi)發(fā)出有效的 搜索引擎并且贏得了可觀的商業(yè)利潤(rùn)。然而,傳統(tǒng)的搜索引擎存在以下缺 陷 '
搜索結(jié)果為目錄式,即返回成千上萬(wàn)個(gè)網(wǎng)頁(yè)標(biāo)題和鏈接,而不是用 戶所需的答案。
搜索結(jié)果通常包含大量重復(fù)的網(wǎng)頁(yè)內(nèi)容,用戶需要自己去分析、判
斷并排除這些重復(fù)的信息。
所需的答案往往分散在不同的網(wǎng)頁(yè)上,用戶需要自己將這些分散的
信息收集和總結(jié)。
對(duì)許多的熱門話題,除了使用搜索引擎以外,人們還可以從網(wǎng)上百科 全書(shū),如百度百科、維基百科等,獲得準(zhǔn)確翔實(shí)的信息。然而,這些百科 全書(shū)的內(nèi)容都為手工編輯,而且對(duì)大多數(shù)的話題很難做到實(shí)時(shí)更新。
新的搜索引擎技術(shù)也層出不窮。各種優(yōu)化排序的方法,比如申請(qǐng)?zhí)枮?br>
US5864845和US5864846的美國(guó)專利申請(qǐng)最早提出了 Meta Search的想法, 將多個(gè)搜索引擎的搜索結(jié)果以一定的方式整合起來(lái),提供"最優(yōu)"的排序 方案。典型的Meta Search類搜索引擎包括DogPile.com, A9.com, searchmash. com等。這些優(yōu)化排序的方法更專注于在目錄式的基礎(chǔ)上如何 提高搜索結(jié)果的相關(guān)性,而不是如何解決上述缺陷。
在本發(fā)明之前,確有研究涉及到使用某些"摘要"形式來(lái)捕捉單個(gè)網(wǎng) 頁(yè)的信息。比如,申請(qǐng)?zhí)枮閁S6581057的美國(guó)專利申請(qǐng)?zhí)岢?,在生成索?的同時(shí)為每個(gè)網(wǎng)頁(yè)產(chǎn)生一個(gè)主題描述,并在網(wǎng)頁(yè)被回溯時(shí)顯示出來(lái)。更進(jìn)
6一步地,申請(qǐng)?zhí)枮閁S20020078019的美國(guó)專利申請(qǐng)對(duì)每個(gè)網(wǎng)頁(yè)產(chǎn)生兩級(jí)描 述 一個(gè)主題描述和一個(gè)更詳細(xì)的描述。圖形信息也被考慮跟每個(gè)相關(guān)網(wǎng) 頁(yè)關(guān)聯(lián)起來(lái),比如Michael Wynblatt和Dan Benson的文章"Web Page Caricatures: Multimedia Summaries for WWW Documents"(工CMCS, 1998 年)中提到用網(wǎng)頁(yè)圖標(biāo),Allison Woodruff等的文章"Using Thumbnails to Search the Web" (CHFCS, 2001年)中提到用圖像小樣,以及申請(qǐng)?zhí)枮?US6643641的美國(guó)專利申請(qǐng)?zhí)岢龅氖褂脠D像快照。上述這些"摘要"形式都 只應(yīng)用于單個(gè)網(wǎng)頁(yè)。
還有一些技術(shù)使用一個(gè)信息集合來(lái)代表多個(gè)相關(guān)網(wǎng)頁(yè)的內(nèi)容。特別是 申請(qǐng)?zhí)枮閁S20060155728的美國(guó)專利申請(qǐng),提出可以把多個(gè)網(wǎng)址整理成一
個(gè)單一的特殊網(wǎng)址,當(dāng)用戶點(diǎn)擊這個(gè)特殊網(wǎng)址時(shí),它所代表的那些網(wǎng)頁(yè)將 被傳入瀏覽模塊中。然而,該技術(shù)并不涉及任何摘要形式。另有一類技術(shù), 如申請(qǐng)?zhí)枮閁S6862586的美國(guó)專利申請(qǐng),使用聚類和主題詞來(lái)代表所有相 關(guān)網(wǎng)頁(yè)。在這種基于網(wǎng)頁(yè)聚類的搜索引擎,例如Clusty. com,的搜索結(jié)果 中網(wǎng)頁(yè)還是被排序并單獨(dú)呈現(xiàn)。本發(fā)明也使用了聚類技術(shù),但主要是用于 生成子話題的摘要,而不是為生成網(wǎng)頁(yè)的聚類。
專利申請(qǐng)?zhí)枮閁S6591261的美國(guó)專利申請(qǐng)?zhí)岢龈鶕?jù)網(wǎng)頁(yè)間的超鏈接來(lái) 確定相關(guān)網(wǎng)頁(yè)。用戶因此可以從一個(gè)網(wǎng)頁(yè)鏈接到它的相關(guān)網(wǎng)頁(yè)。但是,這 些相關(guān)網(wǎng)頁(yè)往往含有大量重復(fù)信息,并且沒(méi)有幫助用戶從大量的搜索結(jié)果 中解放出來(lái)。
總的來(lái)講,現(xiàn)有這些搜索引擎技術(shù)仍存在下面主要缺陷(1)傳統(tǒng)的 搜索引擎,也稱作"基于關(guān)鍵字的搜索引擎",是依靠關(guān)鍵字來(lái)匹配相關(guān)內(nèi) 容。這種技術(shù)的瓶頸在于,單純依靠關(guān)鍵字匹配并不能真正理解內(nèi)容的含 義。這也是為什么傳統(tǒng)搜索引擎的結(jié)果常常含有大量似是而非的無(wú)關(guān)網(wǎng)頁(yè)。 (2)傳統(tǒng)搜索引擎的另一大弊端是其索引方式頁(yè)面索引。用戶搜索的目 的是要相關(guān)內(nèi)容或答案;而頁(yè)面索引只能提供大量網(wǎng)頁(yè),用戶往往需要閱 讀多個(gè)網(wǎng)頁(yè),并在搜索結(jié)果和頁(yè)面之間不停地切換,來(lái)自己判斷、整理和 總結(jié)相關(guān)內(nèi)容。所以,現(xiàn)存的這些缺陷有待克服和解決。
發(fā)明內(nèi)容
本發(fā)明的首要目的在于針對(duì)現(xiàn)有搜索引擎存在的的缺陷,致力于提供 給用戶更簡(jiǎn)潔、更翔實(shí)、更相關(guān)、更人性化的搜索結(jié)果的摘要式網(wǎng)絡(luò)搜索
7引擎系統(tǒng)。
本發(fā)明的另一目的在于提供由上述系統(tǒng)實(shí)現(xiàn)的摘要式網(wǎng)絡(luò)搜索方法。 本發(fā)明的再一目的在于提供由上述系統(tǒng)實(shí)現(xiàn)的摘要式網(wǎng)絡(luò)搜索方法的 應(yīng)用。
本發(fā)明的目的通過(guò)下述技術(shù)方案實(shí)現(xiàn) 一種摘要式網(wǎng)絡(luò)搜索引擎系統(tǒng), 包括如下組成部分
(1) 接收用戶査詢請(qǐng)求和顯示摘要式搜索結(jié)果的用戶界面;
(2) 負(fù)責(zé)抓取網(wǎng)頁(yè)的網(wǎng)頁(yè)抓取模塊; 其特征在于還包括如下組成部分
(3) 對(duì)抓取的網(wǎng)頁(yè)進(jìn)行深層次的語(yǔ)法和語(yǔ)義分析,并基于語(yǔ)法和語(yǔ)義 的分析結(jié)果建立語(yǔ)句索引的語(yǔ)句索引模塊;
(4) 從語(yǔ)句索引模塊中提取與用戶查詢請(qǐng)求相關(guān)的內(nèi)容,將相關(guān)的內(nèi)
容中進(jìn)行聚類處理,對(duì)聚類處理的結(jié)果再進(jìn)行摘要處理并產(chǎn)生摘要式搜索 結(jié)果的摘要式搜索模塊。
組成部分(3)中,所述的語(yǔ)句索引模塊,包括
(3.1) 從網(wǎng)絡(luò)抓取模塊抓取下來(lái)的網(wǎng)頁(yè)中提取有效網(wǎng)頁(yè)內(nèi)容,即句法 正確的文字段落、圖像、視頻以及音頻信息的網(wǎng)頁(yè)內(nèi)容過(guò)濾模塊;
(3.2) 對(duì)有效網(wǎng)頁(yè)內(nèi)容中的文字段落進(jìn)行語(yǔ)句劃分,并對(duì)每個(gè)語(yǔ)句進(jìn) 行語(yǔ)法和語(yǔ)義分析及注釋的語(yǔ)法語(yǔ)義注釋模塊;
同時(shí),語(yǔ)句索引模塊的特征還可包括
(3.3) 根據(jù)有效網(wǎng)頁(yè)內(nèi)容的語(yǔ)法和語(yǔ)義分析結(jié)果,來(lái)識(shí)別語(yǔ)句的語(yǔ)義 是否重復(fù)的重復(fù)語(yǔ)句識(shí)別模塊;
(3.4) 根據(jù)有效網(wǎng)頁(yè)內(nèi)容的語(yǔ)法和語(yǔ)義分析結(jié)果,來(lái)刪除語(yǔ)句非重要 成分的語(yǔ)句壓縮模塊;
(3.5) 建立基于語(yǔ)句(而不是網(wǎng)頁(yè))的語(yǔ)句索引生成模塊;
(3.6) 以及將每個(gè)圖像、視頻和音頻信息同語(yǔ)句關(guān)聯(lián)起來(lái)的多媒體關(guān) 聯(lián)模塊。
(3.2)中,所述的語(yǔ)法語(yǔ)義注釋模塊包括語(yǔ)句劃分模塊、分詞模塊、 詞性分析模塊、語(yǔ)義成分分析模塊、實(shí)體抽取模塊、實(shí)體關(guān)系分析模塊和 情感分析模塊。
組成部分(4)中,所述的摘要式搜索模塊包括語(yǔ)句檢索模塊、語(yǔ)句聚 類模塊和摘要生成模塊;其特征包括
8語(yǔ)句檢索模塊從語(yǔ)句索引模塊中提取與用戶査詢請(qǐng)求相關(guān)的語(yǔ)句,簡(jiǎn) 稱相關(guān)語(yǔ)句;
語(yǔ)句聚類模塊根據(jù)這些相關(guān)語(yǔ)句所描述的主題將相關(guān)語(yǔ)句進(jìn)行分類,
每個(gè)類包含一個(gè)主題及描述該主題的所有相關(guān)語(yǔ)句;
摘要生成模塊對(duì)每個(gè)類所包含的相關(guān)語(yǔ)句進(jìn)行摘要處理,生成摘要式 搜索結(jié)果;所述摘要式搜索結(jié)果,是指以下述一種或多種形式來(lái)概括和總 結(jié)相關(guān)內(nèi)容段落、條目、表格和圖形。
所述段落或條目,由部分相關(guān)語(yǔ)句的部分語(yǔ)法和語(yǔ)義成分、以及與這 些相關(guān)語(yǔ)句關(guān)聯(lián)的圖像、視頻和音頻信息組成,這些圖像、視頻以及音頻 信息由所述的多媒體關(guān)聯(lián)模塊提供。
所述表格,由段落或條目中所包含的實(shí)體組成,這些實(shí)體由所述的實(shí) 體抽取模塊和實(shí)體關(guān)系分析模塊提供。
所述圖形,由段落或條目中所包含的數(shù)量型實(shí)體組成,這些數(shù)量型實(shí) 體由所述的實(shí)體抽取模塊和實(shí)體關(guān)系分析模塊提供。
組成部分(4)中,所述"與用戶查詢請(qǐng)求相關(guān)的內(nèi)容",簡(jiǎn)稱相關(guān)內(nèi) 容,是指在段落索引模塊中索引的語(yǔ)法和語(yǔ)義的分析結(jié)果,并與用戶查詢 請(qǐng)求相關(guān)。這個(gè)相關(guān)內(nèi)容包含文字、圖像、視頻以及音頻信息。
一種由上述系統(tǒng)實(shí)現(xiàn)的摘要式網(wǎng)絡(luò)搜索方法,其特征在于包括以下步 驟 .
(1) 抓取網(wǎng)絡(luò)上的網(wǎng)頁(yè),并生成語(yǔ)句索引;
(2) 生成摘要式搜索結(jié)果;
步驟(1)中,所述生成語(yǔ)句索引,包括以下具體步驟
(1.1) 從抓取的網(wǎng)頁(yè)中提取有效網(wǎng)頁(yè)內(nèi)容,即句法正確的文字段落、 圖像、視頻以及音頻信息;
(1.2) 對(duì)有效網(wǎng)頁(yè)內(nèi)容的文字段落進(jìn)行深層次的語(yǔ)法和語(yǔ)義分析,包 括語(yǔ)句劃分、分詞、詞性分析、語(yǔ)義成分分析、實(shí)體抽取、實(shí)體關(guān)系分析 和情感分析;
所述生成語(yǔ)句索引,其特征體現(xiàn)在以下步驟
(1.3) 識(shí)別重復(fù)語(yǔ)句,即把含有相同或相近語(yǔ)義成分的語(yǔ)句列為重復(fù)
語(yǔ)句;
(1.4) 壓縮語(yǔ)句,即刪除語(yǔ)句中非重要的語(yǔ)法和語(yǔ)義成分;
(1.5) 建立語(yǔ)句索引(而不是網(wǎng)頁(yè)索引);(1.6)將步驟(1)中提到的網(wǎng)頁(yè)中的每個(gè)圖像、視頻和音頻信息同該 網(wǎng)頁(yè)中的語(yǔ)句關(guān)聯(lián)起來(lái);這種關(guān)聯(lián)性取決于下述方法之一或全部
(1.6.1) 圖像、視頻和音頻信息所附屬的文字性信息,即標(biāo)題、文件 名、標(biāo)簽等,同語(yǔ)句的相似性;
(1.6.2) 圖像和視頻內(nèi)的物體及物體的行為,同語(yǔ)句所描述的事物的 相似性。
步驟(2)中,所述的生成摘要式搜索結(jié)果,其特征體現(xiàn)在以下步驟
(2.1) 語(yǔ)句檢索,即從語(yǔ)句索引中提取相關(guān)語(yǔ)句;
(2.2) 語(yǔ)句聚類分析,即根據(jù)這些相關(guān)語(yǔ)句所描述的主題將相關(guān)語(yǔ)句 進(jìn)行分類,每個(gè)類包含一個(gè)主題及描述該主題的所有相關(guān)語(yǔ)句;
(2.3) 對(duì)每個(gè)類所包含的相關(guān)語(yǔ)句進(jìn)行摘要處理,生成摘要式搜索結(jié)果。
步驟(2.3)中,所述的摘要處理,其特征體現(xiàn)在以下步驟
(2.3.1) 生成摘要式搜索結(jié)果段落或條目,包含以下步驟 (2.3丄1)在每個(gè)類所包含的相關(guān)語(yǔ)句中,按照所描述內(nèi)容的時(shí)間、空
間、邏輯關(guān)系、語(yǔ)言表述習(xí)慣、語(yǔ)句的連貫性和可讀性,依次挑選出一組 語(yǔ)句;
(2.3丄2)刪除這組語(yǔ)句中重復(fù)的語(yǔ)句。重復(fù)語(yǔ)句識(shí)別方法如步驟(1.3)
所述;
(2.3丄3)根據(jù)語(yǔ)句間主題的相關(guān)性將這組語(yǔ)句劃分段落或條目; (2.3丄4)多媒體信息關(guān)聯(lián),即提取與這組語(yǔ)句中每個(gè)語(yǔ)句所關(guān)聯(lián)的圖
像、視頻和音頻信息,并將這些信息插入到所關(guān)聯(lián)的語(yǔ)句的位置。語(yǔ)句與
圖像、視頻和音頻信息的關(guān)聯(lián)方法如步驟(1.6)所述。
(2.3.2) 生成摘要式搜索結(jié)果表格,即將步驟(2.3.1)所述的摘要式 搜索結(jié)果段落或條目所包含的實(shí)體,放在一個(gè)或多個(gè)表格中,同一類實(shí)體 為同一行或同一列。
(2.3.3) 生成摘要式搜索結(jié)果圖形,即將步驟(2.3.1)所述的摘要式 搜索結(jié)果段落或條目所包含的數(shù)量型實(shí)體,以一個(gè)或多個(gè)統(tǒng)計(jì)性圖形(包 括并且不限于柱狀圖、餅狀圖、折線圖、曲線圖和趨勢(shì)線圖)表示。
上述系統(tǒng)實(shí)現(xiàn)的摘要式網(wǎng)絡(luò)搜索方法的應(yīng)用,其特征在于-系統(tǒng)將被配置成通用搜索引擎系統(tǒng),為不依賴于特定領(lǐng)域的用戶查詢 請(qǐng)求提供摘要式搜索結(jié)果。系統(tǒng)將被配置成專業(yè)搜索引擎系統(tǒng),即為不同專業(yè)領(lǐng)域用戶的査詢請(qǐng) 求提供不同形式和內(nèi)容的摘要式搜索結(jié)果。
系統(tǒng)將被配置成為特定用戶或用戶群提供摘要式搜索服務(wù)的桌面系統(tǒng) 或遠(yuǎn)程服務(wù)系統(tǒng)。上述的用戶或用戶群將以付費(fèi)的方式獲得上述服務(wù)。
由于摘要式搜索結(jié)果簡(jiǎn)明扼要的特征,系統(tǒng)將被配置成適用于手機(jī)等 移動(dòng)通訊設(shè)備的信息搜索平臺(tái)。
本發(fā)明相對(duì)于現(xiàn)有技術(shù)具有如下的優(yōu)點(diǎn)及有益效果不同于傳統(tǒng)的搜 索引擎,在收到用戶的査詢請(qǐng)求之后,摘要式網(wǎng)絡(luò)搜索引擎在對(duì)網(wǎng)絡(luò)上的 相關(guān)信息進(jìn)行實(shí)時(shí)的綜合分析,剔除大量冗余的信息,并提煉歸納出一個(gè) 更易于用戶使用和理解的摘要文章。這種的摘要式的搜索結(jié)果會(huì)包含自動(dòng) 產(chǎn)生的文字段落、條目、表格和圖形,并且會(huì)自動(dòng)更新,而不依賴于人工 產(chǎn)生。與傳統(tǒng)的搜索引擎相比,本發(fā)明具有以下優(yōu)點(diǎn)
返回的摘要式結(jié)果可讀性更好,更易于理解,包含更少不相關(guān)的信息。
自動(dòng)將分散在不同頁(yè)面上的信息收集、分類和總結(jié),并生成概括性的摘 要文章。
用戶能夠用更少的點(diǎn)擊找到他們想要的頁(yè)面。 一方面用戶能夠在摘要中
找到他們想要的結(jié)果,另一方面摘要里各語(yǔ)句的上下文信息能夠幫助用
戶更加自信準(zhǔn)確地決策。
我們產(chǎn)生的摘要具有層次結(jié)構(gòu),包括一個(gè)針對(duì)用戶査詢的主摘要和一系
列針對(duì)相關(guān)話題的子摘要。它們能夠幫助用戶快速去除問(wèn)題中的歧義,
縮小查詢范圍或重新組織查詢。
在摘要中自然地嵌入了多媒體信息,視頻,音頻和圖像等等。它比單純
的文本搜索界面更友好,包含的信息量也更大。
摘要式搜索更適合手機(jī)搜索,因?yàn)樗梢园殉汕先f(wàn)相關(guān)網(wǎng)頁(yè)的內(nèi)容以
摘要的形式簡(jiǎn)潔地呈現(xiàn)給用戶,而且摘要的長(zhǎng)短可由用戶指定。
在用戶査詢階段,摘要式搜索引擎和傳統(tǒng)的搜索引擎沒(méi)有區(qū)別用戶可
以輸入任何關(guān)鍵字。也就是說(shuō),當(dāng)用戶從傳統(tǒng)搜索引擎轉(zhuǎn)換到摘要式搜
索時(shí),沒(méi)有任何使用習(xí)慣上的改變,所以適用性較好。
圖1是本發(fā)明方框流程圖。
圖2是網(wǎng)頁(yè)內(nèi)容過(guò)濾模塊的流程圖。
11圖3是語(yǔ)法語(yǔ)義注釋模塊的流程圖。 圖4是摘要生成模塊的流程圖。
圖5是一個(gè)摘要式搜索結(jié)果的例子。
具體實(shí)施例方式
下面結(jié)合實(shí)施例及附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述,但本發(fā)明的實(shí) 施方式不限于此。
象其它搜索引擎一樣,本發(fā)明摘要式網(wǎng)絡(luò)搜索引擎系統(tǒng)也由三個(gè)部分
組成網(wǎng)頁(yè)抓取、索引和搜索,如圖1所示。
網(wǎng)頁(yè)抓取程序在網(wǎng)絡(luò)上獲取網(wǎng)頁(yè)。網(wǎng)頁(yè)抓取模塊10從開(kāi)放目錄,比如
Open Directory Project (http:〃dmoz.org)中的網(wǎng)絡(luò)鏈接,以及其它預(yù)先準(zhǔn)備 的網(wǎng)絡(luò)鏈接入手下載網(wǎng)頁(yè)ll。
索引部分由語(yǔ)句索引模塊來(lái)實(shí)現(xiàn)。語(yǔ)句索引模塊分析網(wǎng)頁(yè)11,并將分 析結(jié)果加入到語(yǔ)句索引19中,以供搜索部分來(lái)査詢。語(yǔ)句索引模塊包含以 下部分
1、 網(wǎng)頁(yè)內(nèi)容過(guò)濾模塊12將網(wǎng)頁(yè)上的文字段落13及其它多媒體信息17, 如圖像、音頻和視頻等,通過(guò)下述步驟提取出來(lái)網(wǎng)頁(yè)內(nèi)容分離模塊34將 JavaScript、 Applet、 CSS、字符和顏色設(shè)置等從網(wǎng)頁(yè)原代碼中分離出去;段 落和多媒體目標(biāo)識(shí)別模塊36將剩余代碼中的文字段落13和多媒體信息17 提取出來(lái);格式不符的段落,如太短或者沒(méi)有標(biāo)點(diǎn)符號(hào)等,將被段落過(guò)濾 模塊38刪除。
2、 文字段落13通過(guò)語(yǔ)法語(yǔ)義注釋模塊14進(jìn)行語(yǔ)法和語(yǔ)義的分析并聲 稱分析結(jié)果15。不同于傳統(tǒng)的搜索引擎的索引系統(tǒng),我們搜索引擎的語(yǔ)法 語(yǔ)義注釋模塊14分析頁(yè)面中語(yǔ)句的語(yǔ)法和語(yǔ)義結(jié)構(gòu)。首先,語(yǔ)句識(shí)別模塊 40將段落分割成語(yǔ)句。格式不符的語(yǔ)句,例如太短、沒(méi)有合適的標(biāo)點(diǎn)符號(hào) 或首字母沒(méi)有大寫(針對(duì)某些語(yǔ)言)等,將會(huì)被語(yǔ)句過(guò)濾模塊42刪除。其 次,每個(gè)語(yǔ)句中的詞性和詞組分別由詞類標(biāo)注模塊44和詞組識(shí)別模塊46 分析識(shí)別出來(lái)。詞類和詞組識(shí)別是自然語(yǔ)言處理中常見(jiàn)的任務(wù),通常可以 通過(guò)一系列的語(yǔ)言規(guī)則實(shí)現(xiàn)。最后,每個(gè)語(yǔ)句的語(yǔ)言成分結(jié)構(gòu)由語(yǔ)義規(guī)則 標(biāo)識(shí)模塊48識(shí)別。語(yǔ)義規(guī)則標(biāo)識(shí)模塊通常包括一系列的語(yǔ)言規(guī)則來(lái)識(shí)別主 語(yǔ)、謂語(yǔ)、賓語(yǔ)、定語(yǔ)、狀語(yǔ)、補(bǔ)語(yǔ)等語(yǔ)言成分。語(yǔ)法語(yǔ)義注釋模塊14最 終產(chǎn)生上述的分析結(jié)果15。
123、 分析結(jié)果15中的語(yǔ)義重復(fù)語(yǔ)句由重復(fù)語(yǔ)句識(shí)別模塊16識(shí)別出來(lái)。
重復(fù)語(yǔ)句識(shí)別模塊16可以識(shí)別含有相同主謂賓結(jié)構(gòu)的語(yǔ)句。對(duì)于一組冗余 的語(yǔ)句,我們只將信息量最大的一個(gè)語(yǔ)句保留在索引19中,例如最長(zhǎng)或詞 組最多的語(yǔ)句;另一種方法是保留所有的語(yǔ)句,由搜索子系統(tǒng)在生成摘要 是來(lái)決定選擇哪個(gè)語(yǔ)句。
4、 語(yǔ)句壓縮模塊18將分析結(jié)果15中的語(yǔ)句的不必要成分及符號(hào)刪除, 例如在某些情況下的時(shí)間狀語(yǔ)、連詞、括號(hào)中的部分。
5、 多媒體關(guān)聯(lián)模塊22將分析結(jié)果15中的每個(gè)語(yǔ)句與同一頁(yè)面中最相 關(guān)的多媒體目標(biāo)(如果存在的話)聯(lián)系起來(lái)。相關(guān)性的衡量標(biāo)準(zhǔn)1)語(yǔ)句 和多媒體目標(biāo)之間的距離;2)語(yǔ)句和多媒體目標(biāo)的文字信息,例如標(biāo)題、 名稱、標(biāo)簽等,的相關(guān)性。
6、 語(yǔ)句索引生成模塊20將分析結(jié)果15中的語(yǔ)句及其壓縮結(jié)果加入到 索引19中。不同于傳統(tǒng)的索引方式,語(yǔ)句索引生成模塊20將對(duì)網(wǎng)頁(yè)中的 語(yǔ)句做索引,以便在搜索子系統(tǒng)中實(shí)現(xiàn)進(jìn)一步的自然語(yǔ)言分析。
系統(tǒng)的搜索部分由摘要式搜索模塊實(shí)現(xiàn)。摘要式搜索模塊通過(guò)用戶截 面24接受用戶的査詢請(qǐng)求25后,語(yǔ)句檢索模塊26在數(shù)據(jù)庫(kù)中提取相關(guān)語(yǔ) 句27,然后由摘要生成模塊30分析相關(guān)語(yǔ)句27和相關(guān)多媒體信息17,并 生成摘要。
由于用戶的查詢通常概念模糊或不夠確切,相關(guān)語(yǔ)句27很可能包含諸 多話題。因此,我們通過(guò)語(yǔ)句聚類模塊28分析相關(guān)語(yǔ)句27中的常見(jiàn)詞組, 并根據(jù)這些詞組將相關(guān)語(yǔ)句27分類。每個(gè)詞組為一個(gè)類,類中的語(yǔ)句29 包含該詞組。用戶的査詢請(qǐng)求24也包含在常見(jiàn)詞組中,同時(shí)也是最終生成 的摘要的主話題。
摘要生成模塊30為每個(gè)類(即主話題或子話題)生成一個(gè)摘要。摘要 的生成步驟如下
1、第一句選擇模塊50選擇摘要的第一句話。選擇的優(yōu)先權(quán)如下所示 (順序從高到低) 沒(méi)有介詞 有狀態(tài)系動(dòng)詞
在原始網(wǎng)頁(yè)中是文章的第一句話 在原始網(wǎng)頁(yè)中是段落的第一句話
包含的信息量大(例如詞組多) 、 選定的語(yǔ)句要從保留的語(yǔ)句中刪除。
2、 下一句話從保留下來(lái)的語(yǔ)句中依次重復(fù)地選擇。語(yǔ)句連貫性檢測(cè)模
塊52計(jì)算已選的n個(gè)語(yǔ)句和保留下來(lái)的語(yǔ)句中的每一句話的連貫性,例如
相似的名詞詞組數(shù)目。語(yǔ)句所描述內(nèi)容的時(shí)間、空間、邏輯關(guān)系、語(yǔ)言表
述習(xí)慣、介詞指代也將是重要的連貫性計(jì)算依據(jù)。下一句選擇模塊54挑選 連貫性最強(qiáng)的語(yǔ)句為下一句話。同時(shí),與被選擇語(yǔ)句重復(fù)的語(yǔ)句將從保留 下來(lái)的語(yǔ)句中刪除。當(dāng)一定量或所有的語(yǔ)句被選取后,這個(gè)重復(fù)過(guò)程將停 止。
3、 段落連貫性檢測(cè)模塊56根據(jù)語(yǔ)句間的連貫性將這些排好序的語(yǔ)句 55分成段落或條目,即摘要式搜索結(jié)果的文字部分31。
4、 提取與摘要式搜索結(jié)果的文字部分31中的每個(gè)語(yǔ)句相關(guān)聯(lián)的圖像、 視頻和音頻信息,并將這些信息插入到摘要式搜索結(jié)果的文字部分31中所 關(guān)聯(lián)的語(yǔ)句的位置。
5、 生成摘要式搜索結(jié)果中的表格,即將摘要式搜索結(jié)果的文字部分31 所包含的實(shí)體,放在一個(gè)或多個(gè)表格中,同一類實(shí)體為同一行或同一列。
10.3生成摘要式搜索結(jié)果的圖形,即將摘要式搜索結(jié)果的文字部分 31所包含的數(shù)量型實(shí)體,以一個(gè)或多個(gè)統(tǒng)計(jì)性圖形(包括并且不限于柱 狀圖、餅狀圖、折線圖、曲線圖和趨勢(shì)線圖)表示。
最后,摘要頁(yè)面生成模塊32為摘要式搜索結(jié)果生成頁(yè)面。摘要式搜索 結(jié)果中的每個(gè)語(yǔ)句包含原始網(wǎng)頁(yè)的鏈接。與每個(gè)語(yǔ)句相關(guān)的多媒體信息(如 果存在)也將顯示在該句話附近合適的位置。
圖5顯示了 "全球定位系統(tǒng)"在摘要式搜索引擎中的搜索結(jié)果。圖中 右欄為主話題"全球定位系統(tǒng)"的摘要;左欄上部為子話題列表,每個(gè)子 話題鏈接到該子話題的摘要頁(yè)。另一種搜索結(jié)果的表現(xiàn)形式為將所有話題 的摘要顯示在一個(gè)頁(yè)面上。
以上介紹的是摘要式搜索引擎的優(yōu)選方案,顯然這些概念也可以有很 多不同的表現(xiàn)形式。
特別值得一提的是本專利實(shí)現(xiàn)的另一種形式是索答移動(dòng)搜索平臺(tái)。在 這種情況下,摘要生成模塊30和摘要頁(yè)面生成模塊32允許用戶選擇摘要 式搜索結(jié)果的長(zhǎng)度以適應(yīng)移動(dòng)設(shè)備上的小屏幕的限制。與傳統(tǒng)的返回多鏈 接的搜索引擎相比,以簡(jiǎn)明扼要為特點(diǎn)的摘要搜索技術(shù)在移動(dòng)搜索有著天 然的優(yōu)勢(shì)。本發(fā)明除了能用于通用搜索之外,它的其他實(shí)現(xiàn)形式也包括索答技術(shù)
在各個(gè)特定領(lǐng)域的應(yīng)用。在這種情況下,網(wǎng)頁(yè)抓取模塊io將只下載某個(gè)特
定領(lǐng)域的網(wǎng)頁(yè)。另外,語(yǔ)句聚類模塊28也將應(yīng)用跟特定領(lǐng)域相關(guān)的本體或 詞典來(lái)識(shí)別跟此領(lǐng)域相關(guān)的名詞短語(yǔ),并給出相應(yīng)的處理。除此以外,取 決于特定領(lǐng)域的要求,生成的摘要式搜索結(jié)果也可能會(huì)以跟通用搜索完全 不一樣的形式呈現(xiàn)出來(lái)。
上述實(shí)施例為本發(fā)明較佳的實(shí)施方式,但本發(fā)明的實(shí)施方式并不受上 述實(shí)施例的限制,其他的任何未背離本發(fā)明的精神實(shí)質(zhì)與原理下所作的改 變、修飾、替代、組合、簡(jiǎn)化,均應(yīng)為等效的置換方式,都包含在本發(fā)明 的保護(hù)范圍之內(nèi)。
權(quán)利要求
1、一種摘要式網(wǎng)絡(luò)搜索引擎系統(tǒng),包括如下組成部分(1)接收用戶查詢請(qǐng)求和顯示摘要式搜索結(jié)果的用戶界面;(2)負(fù)責(zé)抓取網(wǎng)頁(yè)的網(wǎng)頁(yè)抓取模塊;其特征在于還包括如下組成部分(3)對(duì)抓取的網(wǎng)頁(yè)進(jìn)行深層次的語(yǔ)法和語(yǔ)義分析,并基于語(yǔ)法和語(yǔ)義的分析結(jié)果建立語(yǔ)句索引的語(yǔ)句索引模塊;(4)從語(yǔ)句索引模塊中提取與用戶查詢請(qǐng)求相關(guān)的內(nèi)容,將相關(guān)的內(nèi)容中進(jìn)行聚類處理,對(duì)聚類處理的結(jié)果再進(jìn)行摘要處理并產(chǎn)生摘要式搜索結(jié)果的摘要式搜索模塊。
2、 根據(jù)權(quán)利要求l所述的摘要式網(wǎng)絡(luò)搜索引擎系統(tǒng),其特征在于組 成部分(3)中,所述的語(yǔ)句索引模塊,包括(3.1) 從網(wǎng)絡(luò)抓取模塊抓取下來(lái)的網(wǎng)頁(yè)中提取有效網(wǎng)頁(yè)內(nèi)容,即句法 正確的文字段落、圖像、視頻以及音頻信息的網(wǎng)頁(yè)內(nèi)容過(guò)濾模塊;(3.2) 對(duì)有效網(wǎng)頁(yè)內(nèi)容中的文字段落進(jìn)行語(yǔ)句劃分,并對(duì)每個(gè)語(yǔ)句進(jìn) 行語(yǔ)法和語(yǔ)義分析及注釋的語(yǔ)法語(yǔ)義注釋模塊;(3.3) 根據(jù)有效網(wǎng)頁(yè)內(nèi)容的語(yǔ)法和語(yǔ)義分析結(jié)果,來(lái)識(shí)別語(yǔ)句的語(yǔ)義 是否重復(fù)的重復(fù)語(yǔ)句識(shí)別模塊;(3.4) 根據(jù)有效網(wǎng)頁(yè)內(nèi)容的語(yǔ)法和語(yǔ)義分析結(jié)果,來(lái)刪除語(yǔ)句非重要 成分的語(yǔ)句壓縮模塊;(3.5) 建立基于語(yǔ)句的語(yǔ)句索引生成模塊;(3.6) 以及將每個(gè)圖像、視頻和音頻信息同語(yǔ)句關(guān)聯(lián)起來(lái)的多媒體關(guān) 聯(lián)模塊。
3、 根據(jù)權(quán)利要求2所述的摘要式網(wǎng)絡(luò)搜索引擎系統(tǒng),其特征在于 (3.2)中,所述的語(yǔ)法語(yǔ)義注釋模塊包括語(yǔ)句劃分模塊、分詞模塊、詞性分析模塊、語(yǔ)義成分分析模塊、實(shí)體抽取模塊、實(shí)體關(guān)系分析模塊和 情感分析模塊。
4、 根據(jù)權(quán)利要求1所述的摘要式網(wǎng)絡(luò)搜索引擎系統(tǒng),其特征在于組成部分(4)中,所述的摘要式搜索模塊包括語(yǔ)句檢索模塊、語(yǔ)句聚類模塊 和摘要生成模塊;語(yǔ)句檢索模塊從語(yǔ)句索引模塊中提取與用戶查詢請(qǐng)求相關(guān)的語(yǔ)句,簡(jiǎn)稱相關(guān)語(yǔ)句;語(yǔ)句聚類模塊根據(jù)這些相關(guān)語(yǔ)句所描述的主題將相關(guān)語(yǔ)句進(jìn)行分類, 每個(gè)類包含一個(gè)主題及描述該主題的所有相關(guān)語(yǔ)句;摘要生成模塊對(duì)每個(gè)類所包含的相關(guān)語(yǔ)句進(jìn)行摘要處理,生成摘要式 搜索結(jié)果;所述摘要式搜索結(jié)果,是指以下述一種或多種形式來(lái)概括和總 結(jié)相關(guān)內(nèi)容段落、條目、表格和圖形;所述"與用戶查詢請(qǐng)求相關(guān)的內(nèi)容",是指在段落索引模塊中索引的語(yǔ) 法和語(yǔ)義的分析結(jié)果,并與用戶査詢請(qǐng)求相關(guān);這個(gè)相關(guān)內(nèi)容包含文字、 圖像、視頻以及音頻信息。
5、 根據(jù)權(quán)利要求4所述的摘要式網(wǎng)絡(luò)搜索引擎系統(tǒng),其特征在于所 述段落或條目,由部分相關(guān)語(yǔ)句的部分語(yǔ)法和語(yǔ)義成分、以及與這些相關(guān) 語(yǔ)句關(guān)聯(lián)的圖像、視頻和音頻信息組成,這些圖像、視頻以及音頻信息由 所述的多媒體關(guān)聯(lián)模塊提供;所述表格,由段落或條目中所包含的實(shí)體組成,這些實(shí)體由所述的實(shí) 體抽取模塊和實(shí)體關(guān)系分析模塊提供;所述圖形,由段落或條目中所包含的數(shù)量型實(shí)體組成,這些數(shù)量型實(shí) 體由所述的實(shí)體抽取模塊和實(shí)體關(guān)系分析模塊提供。
6、 一種摘要式網(wǎng)絡(luò)搜索方法,其特征在于包括以下步驟(1) 抓取網(wǎng)絡(luò)上的網(wǎng)頁(yè),并生成語(yǔ)句索引;(2) 生成摘要式搜索結(jié)果;步驟(1)中,所述生成語(yǔ)句索引,包括以下具體步驟(1.1) 從抓取的網(wǎng)頁(yè)中提取有效網(wǎng)頁(yè)內(nèi)容,即句法正確的文字段落、 圖像、視頻以及音頻信息;(1.2) 對(duì)有效網(wǎng)頁(yè)內(nèi)容的文字段落進(jìn)行深層次的語(yǔ)法和語(yǔ)義分析,包 括語(yǔ)句劃分、分詞、詞性分析、語(yǔ)義成分分析、實(shí)體抽取、實(shí)體關(guān)系分析 和情感分析;(1.3) 識(shí)別重復(fù)語(yǔ)句,即把含有相同或相近語(yǔ)義成分的語(yǔ)句列為重復(fù)語(yǔ)句;(1.4) 壓縮語(yǔ)句,即刪除語(yǔ)句中非重要的語(yǔ)法和語(yǔ)義成分;(1.5) 建立語(yǔ)句索引;(1.6) 將步驟(1)中提到的網(wǎng)頁(yè)中的每個(gè)圖像、視頻和音頻信息同該 網(wǎng)頁(yè)中的語(yǔ)句關(guān)聯(lián)起來(lái);這種關(guān)聯(lián)性取決于下述方法之一或全部(1.6.1) 圖像、視頻和音頻信息所附屬的文字性信息,即標(biāo)題、文件 名、標(biāo)簽等,同語(yǔ)句的相似性;(1.6.2) 圖像和視頻內(nèi)的物體及物體的行為,同語(yǔ)句所描述的事物的 相似性。
7、 根據(jù)權(quán)利要求6所述的摘要式網(wǎng)絡(luò)搜索方法,其特征在于步驟(2)中,所述的生成摘要式搜索結(jié)果,其特征體現(xiàn)在以下步驟(2.1) 語(yǔ)句檢索,即從語(yǔ)句索引中提取相關(guān)語(yǔ)句;(2.2) 語(yǔ)句聚類分析,即根據(jù)這些相關(guān)語(yǔ)句所描述的主題將相關(guān)語(yǔ)句 進(jìn)行分類,每個(gè)類包含一個(gè)主題及描述該主題的所有相關(guān)語(yǔ)句;(2.3) 對(duì)每個(gè)類所包含的相關(guān)語(yǔ)句進(jìn)行摘要處理,生成摘要式搜索結(jié)果。
8、 根據(jù)權(quán)利要求7所述的摘要式網(wǎng)絡(luò)搜索方法,其特征在于 步驟(2.3)中,所述的摘要處理包括以下步驟(2.3.1) 生成摘要式搜索結(jié)果段落或條目,具體包含以下步驟 (2.3丄1)在每個(gè)類所包含的相關(guān)語(yǔ)句中,按照所描述內(nèi)容的時(shí)間、空間、邏輯關(guān)系、語(yǔ)言表述習(xí)慣、語(yǔ)句的連貫性和可讀性,依次挑選出一組 語(yǔ)句;(2.3丄2)刪除這組語(yǔ)句中重復(fù)的語(yǔ)句;(2.3丄3)根據(jù)語(yǔ)句間主題的相關(guān)性將這組語(yǔ)句劃分段落或條目; (2.3丄4)多媒體信息關(guān)聯(lián),即提取與這組語(yǔ)句中每個(gè)語(yǔ)句所關(guān)聯(lián)的圖 像、視頻和音頻信息,并將這些信息插入到所關(guān)聯(lián)的語(yǔ)句的位置;(2.3.2) 生成摘要式搜索結(jié)果表格,即將步驟(2.3.1)所述的摘要式 搜索結(jié)果段落或條目所包含的實(shí)體,放在一個(gè)或多個(gè)表格中,同一類實(shí)體 為同一行或同一列;(2.3.3) 生成摘要式搜索結(jié)果圖形,即將步驟(2.3.1)所述的摘要式 搜索結(jié)果段落或條目所包含的數(shù)量型實(shí)體,以一個(gè)或多個(gè)統(tǒng)計(jì)性圖形,包 括并且不限于柱狀圖、餅狀圖、,折線圖、曲線圖和趨勢(shì)線圖表示。
9、 根據(jù)權(quán)利要求l一5任一項(xiàng)所述摘要式網(wǎng)絡(luò)搜索引擎系統(tǒng)實(shí)現(xiàn)的摘 要式網(wǎng)絡(luò)搜索方法的應(yīng)用,其特征在于-系統(tǒng)被配置成通用搜索引擎系統(tǒng),為不依賴于特定領(lǐng)域的用戶查詢請(qǐng) 求提供摘要式搜索結(jié)果;系統(tǒng)被配置成專業(yè)搜索引擎系統(tǒng),即為不同專業(yè)領(lǐng)域用戶的査詢請(qǐng)求提供不同形式和內(nèi)容的摘要式搜索結(jié)果;系統(tǒng)被配置成為特定用戶或用戶群提供摘要式搜索服務(wù)的桌面系統(tǒng)或 遠(yuǎn)程服務(wù)系統(tǒng)。上述的用戶或用戶群將以付費(fèi)的方式獲得上述服務(wù);系統(tǒng)被配置成適用于手機(jī)等移動(dòng)通訊設(shè)備的信息搜索平臺(tái)。
全文摘要
本發(fā)明提供一種摘要式網(wǎng)絡(luò)搜索引擎系統(tǒng)及其搜索方法與應(yīng)用,其系統(tǒng)主要包括用戶界面、網(wǎng)頁(yè)抓取模塊、語(yǔ)句索引模塊、摘要式搜索模塊等;其搜索方法主要包括以下步驟(1)抓取網(wǎng)絡(luò)上的網(wǎng)頁(yè),并生成語(yǔ)句索引;(2)生成摘要式搜索結(jié)果。本系統(tǒng)可應(yīng)用為通用搜索引擎系統(tǒng)或?qū)I(yè)搜索引擎系統(tǒng),亦可配置成為特定用戶或用戶群提供摘要式搜索服務(wù)的桌面系統(tǒng)或遠(yuǎn)程服務(wù)系統(tǒng)或配置成適用于手機(jī)等移動(dòng)通訊設(shè)備的信息搜索平臺(tái)等。相對(duì)于現(xiàn)有技術(shù),本發(fā)明可給用戶更簡(jiǎn)潔、更翔實(shí)、更相關(guān)、更人性化的搜索結(jié)果。
文檔編號(hào)G06F17/30GK101452470SQ20081017085
公開(kāi)日2009年6月10日 申請(qǐng)日期2008年10月17日 優(yōu)先權(quán)日2007年10月18日
發(fā)明者徐亞波, 石忠民 申請(qǐng)人:石忠民;徐亞波