欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于中文分詞的旅游信息抽取與聚合方法

文檔序號:6652859閱讀:670來源:國知局
專利名稱:基于中文分詞的旅游信息抽取與聚合方法
技術(shù)領(lǐng)域
本發(fā)明涉及ー種信息抽取與聚合方法,尤其涉及一種基于中文分詞的旅游信息抽取與聚合方法。
背景技術(shù)
隨著計算機(jī)的普及以及互聯(lián)網(wǎng)的迅猛發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為全球傳播與共享科研、教育、商業(yè)和社會信息等最重要和最具潛力的巨大信息源。面對如此巨大的互聯(lián)網(wǎng)信息庫,如何快速、有效、經(jīng)濟(jì)地得到某個主題的所有相關(guān)信息就成了當(dāng)前ー個十分熱門的研究課題。與傳統(tǒng)的信息資源相比,互聯(lián)網(wǎng)上信息資源有著分布性、異構(gòu)性、開放性、動態(tài)性和龐 大性等特點(diǎn),這些特點(diǎn)導(dǎo)致互聯(lián)網(wǎng)上數(shù)據(jù)的信息接口和組織形式各不相同,也使得互聯(lián)網(wǎng)上的信息資源不能被有效的利用。信息抽取(InformationExtraction)研究正是在這種背景下產(chǎn)生的。什么是信息抽取信息抽取是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,變成表格一樣的組織形式。輸入信息抽取系統(tǒng)的是原始文本,輸出的是固定格式的信息點(diǎn)。信息點(diǎn)從各種各樣的文檔中被抽取出來,然后以統(tǒng)ー的形式集成在一起。這就是信息抽取的主要任務(wù)。信息以統(tǒng)ー的形式集成在一起的好處是方便檢查和比較。信息抽取技術(shù)并不試圖全面理解整篇文檔,只是對文檔中包含相關(guān)信息的部分進(jìn)行分析。至于哪些信息是相關(guān)的,那將由系統(tǒng)設(shè)計時定下的領(lǐng)域范圍而定。信息抽取技術(shù)對于從大量的文檔中抽取需要的特定事實(shí)來說是非常有用的。互聯(lián)網(wǎng)上就存在著這么ー個文檔庫。在互聯(lián)網(wǎng)上,同一主題的信息通常分散存放在不同網(wǎng)站上,表現(xiàn)的形式也各不相同。若能將這些信息收集在一起,用結(jié)構(gòu)化形式儲存,那將是有益的。由于互聯(lián)網(wǎng)上的信息載體主要是文本,所以信息抽取技術(shù)對于那些把因特網(wǎng)當(dāng)成是知識來源的人來說是至關(guān)重要的。信息抽取系統(tǒng)可以看作是把信息從不同文檔中轉(zhuǎn)換成數(shù)據(jù)庫記錄的系統(tǒng)。因此,成功的信息抽取系統(tǒng)將把互聯(lián)網(wǎng)變成巨大的數(shù)據(jù)庫。在互聯(lián)網(wǎng)信息抽取領(lǐng)域中,信息抽取的準(zhǔn)確性和通用性之間的矛盾一直是該研究領(lǐng)域的難題。性能較好的信息抽取技術(shù)需要用戶的大量參與,但自動化程度不高;而自動化程度高的抽取技術(shù)其準(zhǔn)確率和適應(yīng)性較低,實(shí)用性較差。即使是機(jī)器學(xué)習(xí),也要通過大量的樣本學(xué)習(xí)來提高獲取規(guī)則的自動化程度,這意味著系統(tǒng)需要經(jīng)過較長時間的學(xué)習(xí)才能獲得較好的查準(zhǔn)率。縱觀信息抽取技術(shù)的發(fā)展歷史,研究者們提出了不少優(yōu)秀的抽取策略。從實(shí)現(xiàn)方法的原理出發(fā),可以將信息抽取技術(shù)劃分為4個類別①基于自然語言理解方式;②基于ontology方式;③基于網(wǎng)頁結(jié)構(gòu)特征方式;@基于統(tǒng)計學(xué)習(xí)的方式。基于自然語言理解方式的信息抽取在一定程度上借鑒了自然語言處理技術(shù),利用子句結(jié)構(gòu)、短語和子句間的關(guān)系建立基于語法和語義的抽取規(guī)則,實(shí)現(xiàn)信息抽取。其缺點(diǎn)是抽取速度慢,使用范圍窄,很難做到通用?;趏ntology方式主要是利用對數(shù)據(jù)本身的描述信息實(shí)現(xiàn)抽取,對網(wǎng)頁結(jié)構(gòu)的依賴較少。只要事先創(chuàng)建的應(yīng)用領(lǐng)域的ontology足夠強(qiáng)大,系統(tǒng)可以對某ー應(yīng)用領(lǐng)域中各種網(wǎng)頁實(shí)現(xiàn)信息抽取。目前只能對特定領(lǐng)域構(gòu)建,并且還只能采用半自動的方式由人工參與,這樣使得該方法要求很高,工作量巨大?;诰W(wǎng)頁結(jié)構(gòu)特征方式的特點(diǎn)是根據(jù)Web頁面的結(jié)構(gòu)來定位信息,在信息抽取之前通過解析器將Web文檔解析成語法樹,然后通過自動或半自動的方式產(chǎn)生抽取規(guī)則,最終轉(zhuǎn)化為對語法樹的操作來實(shí)現(xiàn)信息的抽取,本策略實(shí)現(xiàn)簡單,抽取的準(zhǔn)確性好,但要求人工參與?;诮y(tǒng)計學(xué)習(xí)的信息抽取策略是根據(jù)統(tǒng)計學(xué)原理,首先構(gòu)造ー個模型以模擬信息抽取的過程,應(yīng)用統(tǒng)計學(xué)方法從訓(xùn)練語料中得出模型的參數(shù);然后用訓(xùn)練好的模型對待抽取語料進(jìn)行信息抽取。該方法需要經(jīng)過較長時間的樣本學(xué)習(xí),且實(shí)現(xiàn)復(fù)雜。

發(fā)明內(nèi)容
本發(fā)明的目的就是為了解決現(xiàn)有技術(shù)中存在的上述問題,提供一種基于中文分詞的旅游信息抽取與聚合方法本發(fā)明的目的通過以下技術(shù)方案來實(shí)現(xiàn) 基于中文分詞的旅游信息抽取與聚合方法,其包括以下步驟步驟①,收集初始旅游業(yè)特征詞庫;步驟②,進(jìn)行網(wǎng)頁獲取及預(yù)處理;步驟③,網(wǎng)頁正文的提??;步驟④,詞法分析及信息提?。徊襟E⑤,信息聚合。上述的基于中文分詞的旅游信息抽取與聚合方法,其中所述的收集初始旅游業(yè)特征詞庫為,首先對行業(yè)內(nèi)已經(jīng)存在的特征詞語的收集整理;然后,根據(jù)以前網(wǎng)站的系統(tǒng)運(yùn)行日志,分析出新的旅游業(yè)特征詞;之后,將兩者進(jìn)行合井,形成初始旅游業(yè)特征詞庫。進(jìn)ー步地,上述的基于中文分詞的旅游信息抽取與聚合方法,其中所述的初始旅游業(yè)特征詞需進(jìn)行完善,既在每個月的特定時間,將已經(jīng)分析好的線上網(wǎng)站運(yùn)行日志進(jìn)行統(tǒng)計,將發(fā)現(xiàn)的新詞放入新詞庫,在新詞庫中停留ー個月;之后將已經(jīng)確定的新詞轉(zhuǎn)入旅游業(yè)特征詞庫;對于新形成的熱點(diǎn)詞語,通過快速反應(yīng)機(jī)制,直接轉(zhuǎn)入旅游業(yè)特征詞庫。更進(jìn)一歩地,上述的基于中文分詞的旅游信息抽取與聚合方法,其中所述的網(wǎng)頁獲取為對旅游領(lǐng)域的網(wǎng)頁信息進(jìn)行獲取,采用網(wǎng)絡(luò)爬蟲,通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某ー個頁面開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址;然后通過這些鏈接地址尋找下一個網(wǎng)頁,如此循環(huán),直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止;所述的預(yù)處理為,利用HTMLParser提供標(biāo)準(zhǔn)類庫的Parser函數(shù),解析HTML文檔,生成DOM樹。更進(jìn)一歩地,上述的基于中文分詞的旅游信息抽取與聚合方法,其中對頁正文提取吋,對網(wǎng)頁進(jìn)行掃描,將有缺陷的頁面修復(fù),即使用JTidy開放源代碼工具,修正HTML文檔中的常見錯誤并生成格式編排良好的等價文檔;同時,去除頁面噪音。更進(jìn)一歩地,上述的基于中文分詞的旅游信息抽取與聚合方法,其中所述的頁面噪音為網(wǎng)頁頁面上存在的無關(guān)內(nèi)容,包括有頁頭、頁腳、廣告、圖像、腳本、函數(shù)、標(biāo)簽節(jié)點(diǎn)內(nèi)容;除頁面噪音方法為,根據(jù)HTML標(biāo)簽來去除Web文檔中存在的噪音元素,根據(jù)噪音源的特征定義特定的規(guī)則進(jìn)行過濾。更進(jìn)一歩地,上述的基于中文分詞的旅游信息抽取與聚合方法,其中所述的詞法分析及信息提取包括中文分詞和停用詞過濾,所述的中文分詞采用開源分詞工具IKAnalyzer,并結(jié)合旅游領(lǐng)域詞匯組成中文分詞處理模塊,同時采用多子處理器分析模式,支持英文字母、數(shù)字,中文詞匯分詞處理;利用IKAnalyze分詞工具將通過網(wǎng)頁正文提取得到的純文本的關(guān)于旅游的信息與初始旅游業(yè)特征詞庫中的詞條進(jìn)行匹配,若在詞庫中找到某個字符串,則匹配成功,識別出ー個詞,匹配成功的詞都是我們需要提取的旅游信息,存入索引庫。更進(jìn)一歩地,上述的基于中文分詞的旅游信息抽取與聚合方法,其中所述的詞法分析及信息提取包括采用優(yōu)化的詞典存儲,支持用戶詞典擴(kuò)展定義。更進(jìn)一歩地,上述的基于中文分詞的旅游信息抽取與聚合方法,其中所述的提取構(gòu)成為,首先找出網(wǎng)頁中所有的開始標(biāo)記,接著逐次找出網(wǎng)頁中每個標(biāo)記,并檢查其是不是一個有開始標(biāo)記與其對應(yīng)的結(jié)束標(biāo)記或者是注釋標(biāo)記;如果是沒有對應(yīng)開始標(biāo)記的結(jié)束標(biāo)記或者是注釋標(biāo)記,就刪除該標(biāo)記;否則,如果是有對應(yīng)開始標(biāo)記的結(jié)束標(biāo)記,就將這個結(jié)束標(biāo)記與其開始標(biāo)記之間的內(nèi)容提取出來,此時得到的關(guān)于旅游的信息是以純文本形式的。再進(jìn)ー步地,上述的基于中文分詞的旅游信息抽取與聚合方法,其中所述的信息聚合為,當(dāng)用戶輸入關(guān)鍵字查詢相關(guān)旅游信息時,通過索引庫查找就能找到相關(guān)的旅游信
O本發(fā)明技術(shù)方案的優(yōu)點(diǎn)主要體現(xiàn)在可以有效解決對于某ー領(lǐng)域內(nèi)精確信息的需求。同時滿足用戶精準(zhǔn)查找信息的需求,使用垂直搜索引擎的人,對于需求的信息非常明確。并且,與其它Web信息抽取方法相比,由于它是基于中文分詞的抽取,因此這種方法對文檔的結(jié)構(gòu)沒有依賴性。從理論上講,只要旅游領(lǐng)域中文詞庫足夠強(qiáng)大,它就能在該領(lǐng)域的Web信息抽取中達(dá)到很高的抽取精確率和召回率。在此方法中中文詞庫可以是以分布式的形式存在的,因此它還很容易擴(kuò)展到新的領(lǐng)域。當(dāng)一個新的領(lǐng)域中文詞庫建成之后,只要對本系統(tǒng)給出它的地址,那么本方法就可以基于新的中文詞庫進(jìn)行Web信息抽取了,從而就擴(kuò)展到新的領(lǐng)域。本發(fā)明的目的、優(yōu)點(diǎn)和特點(diǎn),將通過下面優(yōu)選實(shí)施例的非限制性說明進(jìn)行解釋。這些實(shí)施例僅是應(yīng)用本發(fā)明技術(shù)方案的典型范例,凡采取等同替換或者等效變換而形成的技術(shù)方案,均落在本發(fā)明要求保護(hù)的范圍之內(nèi)。
具體實(shí)施例方式基于中文分詞的旅游信息抽取與聚合方法,其與眾不同之處在于包括以下步驟步驟①,收集初始旅游業(yè)特征詞庫。具體來說,首先對行業(yè)內(nèi)已經(jīng)存在的特征詞語的收集整理;然后,根據(jù)以前網(wǎng)站的系統(tǒng)運(yùn)行日志,分析出新的旅游業(yè)特征詞;之后,將兩者進(jìn)行合井,形成初始旅游業(yè)特征詞庫。并且,考慮到初始旅游業(yè)特征詞能夠進(jìn)行較佳的更新,適應(yīng)旅游行業(yè)的發(fā)展,初始旅游業(yè)特征詞需進(jìn)行完善,既在每個月的特定時間(每個月月初),可以將已經(jīng)分析好的線上網(wǎng)站運(yùn)行日志進(jìn)行統(tǒng)計,將發(fā)現(xiàn)的新詞放入新詞庫,在新詞庫中停留ー個月。之后,將已經(jīng)確定的新詞轉(zhuǎn)入旅游業(yè)特征詞庫;對于新形成的熱點(diǎn)詞語,通過快速反應(yīng)機(jī)制,直接轉(zhuǎn)入旅游業(yè)特征詞庫。步驟②,進(jìn)行網(wǎng)頁獲取及預(yù)處理。具體來說,網(wǎng)頁獲取為對旅游領(lǐng)域的網(wǎng)頁信息進(jìn)行獲取,采用網(wǎng)絡(luò)爬蟲(WebSpider或Robot),通過網(wǎng)頁的鏈接地址來尋■找網(wǎng)頁,從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址。然后通過這些鏈接地址尋找下一個網(wǎng)頁,如此循環(huán),直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。并且,根據(jù)需要,可以采用人工指導(dǎo)下采集旅途類別的網(wǎng)頁,這樣對于未知類型的網(wǎng)頁可以自動判斷網(wǎng)頁類別。進(jìn)ー步來看,所述的預(yù)處理為,利用HTML Parser提供標(biāo)準(zhǔn)類庫的Parser函數(shù),解析HTML文檔,生成DOM樹。這樣,對于人們感興趣的數(shù)據(jù),都將反映到DOM樹上。步驟③,網(wǎng)頁正文的提取。具體 來說,在對網(wǎng)頁進(jìn)行掃描是需要將有缺陷的頁面修復(fù),即使用JTidy開放源代碼工具,修正HTML文檔中的常見錯誤并生成格式編排良好的等價文檔;同時,去除頁面噪音,既去除網(wǎng)頁中的無用信息,其主要目的是方便后面信息的分析和抽取速度更塊和更精確。結(jié)合現(xiàn)有的網(wǎng)頁內(nèi)容來看,本發(fā)明所描述到的頁面噪音為網(wǎng)頁頁面上存在的無關(guān)內(nèi)容,包括有頁頭、頁腳、廣告、圖像、腳本、函數(shù)、標(biāo)簽節(jié)點(diǎn)內(nèi)容。進(jìn)ー步來看,采用的除頁面噪音方法為,根據(jù)HTML標(biāo)簽來去除Web文檔中存在的噪音元素,根據(jù)噪音源的特征定義特定的規(guī)則進(jìn)行過濾。步驟④,詞法分析及信息提取。具體來說本發(fā)明所采用到的所述的詞法分析及信息提取包括中文分詞和停用詞過濾,所述的中文分詞采用開源分詞工具IKAnalyzer,并結(jié)合旅游領(lǐng)域詞匯組成中文分詞處理模塊。關(guān)于IKAnalyze,其為ー個開源的基于java語言開發(fā)的輕量級的中文分詞工具包,采用了特有的正向迭代最細(xì)粒度切分算法,具有60萬字/秒的高速處理能力。同時,采用多子處理器分析模式,支持英文字母(IP地址、Email、URL)、數(shù)字(日期,常用中文數(shù)量詞,羅馬數(shù)字,科學(xué)計數(shù)法),中文詞匯(姓名、地名處理)分詞處理。進(jìn)ー步來看,在本發(fā)明中,利用IKAnalyze分詞工具,將通過網(wǎng)頁正文提取得到的純文本的關(guān)于旅游的信息與初始旅游業(yè)特征詞庫中的詞條進(jìn)行匹配,若在詞庫中找到某個字符串,則匹配成功,識別出ー個詞,匹配成功的詞都是我們需要提取的旅游信息,存入索引庫(如Iucene)。再進(jìn)ー步來看,考慮到能夠盡可能的減少對于內(nèi)存的占用。詞法分析及信息提取包括采用優(yōu)化的詞典存儲,這樣同時還能夠支持用戶詞典擴(kuò)展定義。具體來說,信息提取為當(dāng)解析生成DOM樹之后,對HTML文檔中信息的提取,就轉(zhuǎn)換成為對DOM樹中相應(yīng)節(jié)點(diǎn)的查找。進(jìn)ー步來看,其實(shí)施過程如下首先找出網(wǎng)頁中所有的開始標(biāo)記。接著逐次找出網(wǎng)頁中姆個標(biāo)記,并檢查其是不是一個有開始標(biāo)記與其對應(yīng)的結(jié)束標(biāo)記或者是注釋標(biāo)記。再進(jìn)ー步來看,如果是沒有對應(yīng)開始標(biāo)記的結(jié)束標(biāo)記或者是注釋標(biāo)記,就刪除該標(biāo)記。否則,如果是有對應(yīng)開始標(biāo)記的結(jié)束標(biāo)記,就將這個結(jié)束標(biāo)記與其開始標(biāo)記之間的內(nèi)容提取出來,此時得到的關(guān)于旅游的信息是以純文本形式的。步驟⑤,信息聚合即當(dāng)用戶輸入關(guān)鍵字查詢相關(guān)旅游信息時,通過索引庫查找就能找到相關(guān)的旅游信息。通過上述的文字表述可以看出,采用本發(fā)明后,可以有效解決對于某ー領(lǐng)域內(nèi)精確信息的需求。同時滿足用戶精準(zhǔn)查找信息的需求,使用垂直搜索引擎的人,對于需求的信息非常明確。并且,與其它Web信息抽取方法相比,由于它是基于中文分詞的抽取,因此這種方法對文檔的結(jié)構(gòu)沒有依賴性。從理論上講,只要旅游領(lǐng)域中文詞庫足夠強(qiáng)大,它就能在該領(lǐng)域的Web信息抽取中達(dá)到很高的抽取精確率和召回率。在此方法中中文詞庫可以是以分布式的形式存在的,因此它還很容易擴(kuò)展到新的領(lǐng)域。當(dāng)一個新的領(lǐng)域中文詞庫建成之后,只要對本系統(tǒng)給出它的地址,那么本方法就可以基于新的中文詞庫進(jìn)行Web信息抽取 了,從而就擴(kuò)展到新的領(lǐng)域。
權(quán)利要求
1.基于中文分詞的旅游信息抽取與聚合方法,其特征在于包括以下步驟 步驟①,收集初始旅游業(yè)特征詞庫; 步驟②,進(jìn)行網(wǎng)頁獲取及預(yù)處理; 步驟③,網(wǎng)頁正文的提取; 步驟④,詞法分析及信息提??; 步驟⑤,信息聚合。
2.根據(jù)權(quán)利要求I所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于所述的收集初始旅游業(yè)特征詞庫為,首先對行業(yè)內(nèi)已經(jīng)存在的特征詞語的收集整理;然后,根據(jù)以前網(wǎng)站的系統(tǒng)運(yùn)行日志,分析出新的旅游業(yè)特征詞;之后,將兩者進(jìn)行合并,形成初始旅游業(yè)特征詞庫。
3.根據(jù)權(quán)利要求2所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于所述的初始旅游業(yè)特征詞需進(jìn)行完善,既在每個月的特定時間,將已經(jīng)分析好的線上網(wǎng)站運(yùn)行日志進(jìn)行統(tǒng)計,將發(fā)現(xiàn)的新詞放入新詞庫,在新詞庫中停留ー個月;之后將已經(jīng)確定的新詞轉(zhuǎn)入旅游業(yè)特征詞庫;對于新形成的熱點(diǎn)詞語,通過快速反應(yīng)機(jī)制,直接轉(zhuǎn)入旅游業(yè)特征詞庫。
4.根據(jù)權(quán)利要求I所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于所述的網(wǎng)頁獲取為對旅游領(lǐng)域的網(wǎng)頁信息進(jìn)行獲取,采用網(wǎng)絡(luò)爬蟲,通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某ー個頁面開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址;然后通過這些鏈接地址尋找下一個網(wǎng)頁,如此循環(huán),直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止;所述的預(yù)處理為,利用HTMLParser提供標(biāo)準(zhǔn)類庫的Parser函數(shù),解析HTML文檔,生成DOM樹。
5.根據(jù)權(quán)利要求I所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于對頁正文提取吋,對網(wǎng)頁進(jìn)行掃描,將有缺陷的頁面修復(fù),即使用JTidy開放源代碼工具,修正HTML文檔中的常見錯誤并生成格式編排良好的等價文檔;同時,去除頁面噪音。
6.根據(jù)權(quán)利要求5所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于所述的頁面噪音為網(wǎng)頁頁面上存在的無關(guān)內(nèi)容,包括有頁頭、頁腳、廣告、圖像、腳本、函數(shù)、標(biāo)簽節(jié)點(diǎn)內(nèi)容;除頁面噪音方法為,根據(jù)HTML標(biāo)簽來去除Web文檔中存在的噪音元素,根據(jù)噪音源的特征定義特定的規(guī)則進(jìn)行過濾。
7.根據(jù)權(quán)利要求I所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于所述的詞法分析及信息提取包括中文分詞和停用詞過濾,所述的中文分詞采用開源分詞エ具IKAnal yzer,并結(jié)合旅游領(lǐng)域詞匯組成中文分詞處理模塊,同時采用多子處理器分析模式,支持英文字母、數(shù)字,中文詞匯分詞處理;利用IKAnalyze分詞工具將通過網(wǎng)頁正文提取得到的純文本的關(guān)于旅游的信息與初始旅游業(yè)特征詞庫中的詞條進(jìn)行匹配,若在詞庫中找到某個字符串,則匹配成功,識別出ー個詞,匹配成功的詞都是我們需要提取的旅游信息,存入索引庫。
8.根據(jù)權(quán)利要求7所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于所述的詞法分析及信息提取包括采用優(yōu)化的詞典存儲,支持用戶詞典擴(kuò)展定義。
9.根據(jù)權(quán)利要求I所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于所述的提取構(gòu)成為,首先找出網(wǎng)頁中所有的開始標(biāo)記,接著逐次找出網(wǎng)頁中每個標(biāo)記,并檢查其是不是一個有開始標(biāo)記與其對應(yīng)的結(jié)束標(biāo)記或者是注釋標(biāo)記;如果是沒有對應(yīng)開始標(biāo)記的結(jié)束標(biāo)記或者是注釋標(biāo)記,就刪除該標(biāo)記;否則,如果是有對應(yīng)開始標(biāo)記的結(jié)束標(biāo)記,就將這個結(jié)束標(biāo)記與其開始標(biāo)記之間的內(nèi)容提取出來,此時得到的關(guān)于旅游的信息是以純文本形式的。
10.根據(jù)權(quán)利要求I所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于所述的信息聚合為,當(dāng)用戶輸入關(guān)鍵字查詢相關(guān)旅游信息時,通過索引庫查找就能找到相關(guān)的旅游信息。
全文摘要
本發(fā)明涉及一種基于中文分詞的旅游信息抽取與聚合方法,其特點(diǎn)是采用如下首先,收集初始旅游業(yè)特征詞庫。接著,進(jìn)行網(wǎng)頁獲取及預(yù)處理。然后,進(jìn)行網(wǎng)頁正文的提取。之后,采取詞法分析及信息提取。最后進(jìn)行信息聚合??梢杂行Ы鉀Q對于某一領(lǐng)域內(nèi)精確信息的需求。同時滿足用戶精準(zhǔn)查找信息的需求,使用垂直搜索引擎的人,對于需求的信息非常明確。并且,與其它Web信息抽取方法相比,當(dāng)一個新的領(lǐng)域中文詞庫建成之后,只要對本系統(tǒng)給出它的地址,那么本方法就可以基于新的中文詞庫進(jìn)行Web信息抽取了,從而就擴(kuò)展到新的領(lǐng)域。
文檔編號G06F17/30GK102654873SQ20111005165
公開日2012年9月5日 申請日期2011年3月3日 優(yōu)先權(quán)日2011年3月3日
發(fā)明者吳志祥 申請人:蘇州同程旅游網(wǎng)絡(luò)科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
自治县| 普格县| 丹棱县| 上杭县| 琼结县| 嘉禾县| 黄石市| 鄂托克旗| 宁安市| 澄迈县| 花莲市| 积石山| 高雄县| 鹿邑县| 博爱县| 新安县| 华安县| 黑河市| 东山县| 美姑县| 卢氏县| 蕲春县| 嘉义县| 临洮县| 类乌齐县| 广灵县| 元氏县| 容城县| 潜江市| 乐至县| 汉中市| 永修县| 台南市| 垫江县| 钦州市| 赤城县| 唐山市| 隆德县| 上林县| 灌阳县| 温州市|