欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)絡(luò)文本信息集成方法和裝置的制作方法

文檔序號:6334634閱讀:324來源:國知局
專利名稱:網(wǎng)絡(luò)文本信息集成方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)信息采集技術(shù),尤其涉及一種網(wǎng)絡(luò)文本信息集成方法和裝置。
背景技術(shù)
隨著農(nóng)村信息化建設(shè)的快速發(fā)展,為農(nóng)民用戶提供農(nóng)業(yè)信息服務(wù)的網(wǎng)站也在全國 大力開展和建設(shè),全國大部分省市區(qū)都有自己的農(nóng)業(yè)信息網(wǎng)站。但是由于我國地域廣闊, 擁有九億農(nóng)民人口,農(nóng)業(yè)信息量巨大,因此,各個地方農(nóng)業(yè)網(wǎng)站搜集的都是本地區(qū)的農(nóng)業(yè)信 息,包括新聞信息、農(nóng)業(yè)科技信息、農(nóng)業(yè)致富信息、農(nóng)業(yè)行情分析、有關(guān)農(nóng)民的政策法規(guī)等等 網(wǎng)絡(luò)文本信息。發(fā)明人在實現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),現(xiàn)有技術(shù)至少存在以下缺陷現(xiàn)有的信息采 集系統(tǒng)大都是爬蟲采集系統(tǒng),通過超鏈接獲得網(wǎng)頁信息,它立足滿足所有互聯(lián)網(wǎng)用戶的需 要。網(wǎng)頁信息結(jié)構(gòu)化提取的技術(shù)上在很多的網(wǎng)絡(luò)爬蟲產(chǎn)品中都有一定體現(xiàn),但是技術(shù)上和 提取的方法上都有一定的局限性。導(dǎo)致在應(yīng)用到實際的農(nóng)業(yè)信息提取上就有一定的困難1.現(xiàn)有系統(tǒng)針對結(jié)構(gòu)化的網(wǎng)頁數(shù)據(jù)提取的技術(shù)都嵌入在程序內(nèi)部,采用了固化的 采集的規(guī)則,提取出結(jié)構(gòu)化的數(shù)據(jù)。這樣的提取方式只能局限在惟一或者類似的網(wǎng)頁。2.現(xiàn)有方法按照網(wǎng)頁的布局方式設(shè)定查詢半徑進行結(jié)構(gòu)化提取,但是大部分的信 息是無法通過此種提取方式得到。3.現(xiàn)有方法通過配置文件提取結(jié)構(gòu)化信息。而這些配置文件只有對網(wǎng)頁程序比較 熟悉的人才可以做到。所以此種方式的提取就大大降低了用戶的范圍。由此可見,在爬蟲應(yīng)用范圍不斷擴大,用戶對網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù)采集的要求越來越 高的形勢下,當(dāng)前的網(wǎng)絡(luò)爬蟲技術(shù)已經(jīng)無法滿足用戶對結(jié)構(gòu)化數(shù)據(jù)的智能采集的需求。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種網(wǎng)絡(luò)文本信息集成方法和裝置,以高效的實現(xiàn)農(nóng)業(yè)網(wǎng) 絡(luò)文本信息的采集和存儲,解決現(xiàn)有技術(shù)采集網(wǎng)頁的寬度和廣度的問題。本發(fā)明一種網(wǎng)絡(luò)文本信息集成方法,包括如下步驟參數(shù)輸入步驟,獲取網(wǎng)站的基 本信息,自動對基本信息進行分析;采集步驟,根據(jù)所述基本信息,遍歷URL,自動獲取網(wǎng)頁 的頁面信息;信息整理及存儲步驟,根據(jù)預(yù)置規(guī)則,自動對獲取的所述網(wǎng)頁信息進行分析, 包括過濾、整理、分類和存儲;發(fā)布步驟,將所述整理過的信息自動發(fā)布到Internet。上述信息集成方法,優(yōu)選所述參數(shù)輸入步驟中,所述網(wǎng)站基本信息包括網(wǎng)站的 URL、網(wǎng)站的字符集、文件的保存地址、是否為單條采集和是否為自動發(fā)布。上述信息集成方法,優(yōu)選所述參數(shù)輸入步驟中,所述自動對基本信息進行分析包 括依據(jù)基本信息,通過程序分析用戶配置的參數(shù),通過網(wǎng)站URL入口,基于爬蟲,遍歷頁面 所有URL,通過程序?qū)RL分析,將URL分為可訪問的URL、重復(fù)的URL和廢棄的URL。上述信息集成方法,優(yōu)選所述采集步驟中,將所述可訪問的URL通過循環(huán)程序,訪 問URL對應(yīng)的網(wǎng)頁信息,獲取網(wǎng)頁HTML源代碼信息。
上述信息集成方法,優(yōu)選所述信息整理步驟中,將獲取的所述網(wǎng)頁HTML源代碼信 息進行過濾,獲取文本的信息。本發(fā)明一種網(wǎng)絡(luò)文本信息集成裝置,包括參數(shù)輸入模塊,用于獲取網(wǎng)站的基本 信息,自動對基本信息進行分析;采集模塊,用于根據(jù)所述基本信息,遍歷URL,自動獲取 網(wǎng)頁的頁面信息;信息整理及存儲模塊,用于根據(jù)預(yù)置規(guī)則,自動對獲取的所述網(wǎng)頁信息 進行分析,包括過濾、整理、分類和存儲;發(fā)布模塊,用于將所述整理過的信息自動發(fā)布到 Internet ο上述信息集成裝置,優(yōu)選所述參數(shù)輸入模塊中,所述網(wǎng)站基本信息包括網(wǎng)站的 URL、網(wǎng)站的字符集、文件的保存地址、是否為單條采集和是否為自動發(fā)布。上述信息集成裝置,優(yōu)選所述參數(shù)輸入模塊中,所述自動對基本信息進行分析為 依據(jù)基本信息,通過程序分析用戶配置的參數(shù),通過網(wǎng)站URL入口,基于爬蟲程序,遍歷頁 面所有URL,通過程序?qū)RL分析,將URL分為可訪問的URL、重復(fù)的URL和廢棄的URL。上述信息集成裝置,優(yōu)選所述采集模塊中,將所述可訪問的URL通過循環(huán)程序,訪 問URL對應(yīng)的網(wǎng)頁信息,獲取網(wǎng)頁HTML源代碼信息。上述信息集成裝置,優(yōu)選所述信息整理模塊中,將獲取的所述網(wǎng)頁HTML源代碼信 息進行過濾,獲取文本的信息。相對于現(xiàn)有技術(shù)而言,本發(fā)明能夠針對用戶的需求,進行網(wǎng)頁的多層次分析,提取 用戶所關(guān)心的內(nèi)容,進行存儲和發(fā)布;進而,高效的實現(xiàn)農(nóng)業(yè)網(wǎng)絡(luò)文本信息的采集和存儲, 解決現(xiàn)有技術(shù)采集網(wǎng)頁的寬度和廣度的問題。


圖1為本發(fā)明網(wǎng)絡(luò)文本信息集成方法的步驟流程圖;圖2為本發(fā)明網(wǎng)絡(luò)文本信息集成方法實施例的步驟流程圖;圖3為本發(fā)明網(wǎng)絡(luò)文本信息集成裝置的結(jié)構(gòu)示意圖;圖4為本發(fā)明網(wǎng)絡(luò)文本信息集成裝置實施例的結(jié)構(gòu)示意圖。
具體實施例方式為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實 施方式對本發(fā)明作進一步詳細的說明。本發(fā)明的發(fā)明思想通過程序采集網(wǎng)頁URL,實現(xiàn)網(wǎng)頁信息的循環(huán)采集,并對采集 信息進行分析、整理、存儲和發(fā)布。參照圖1,圖1是本發(fā)明網(wǎng)絡(luò)文本信息集成方法的步驟流程圖,包括參數(shù)輸入步 驟S110,獲取網(wǎng)站的基本信息,并自動對基本信息進行分析;采集步驟S120,根據(jù)所述基本 信息,遍歷URL,自動獲取網(wǎng)頁的頁面信息;信息整理及存儲步驟S130,根據(jù)預(yù)置規(guī)則,自動 對獲取的所述網(wǎng)頁信息進行分析,包括過濾、整理、分類和存儲;發(fā)布步驟S140,自動將所 述整理過的信息發(fā)布到Internet。方法實施例圖2為本發(fā)明網(wǎng)絡(luò)文本信息集成方法實施例的步驟流程圖,如圖2所示,本實施例 的文本信息集成方法主要包括以下步驟在實例中以某網(wǎng)站的中一個模塊為例。
步驟S201、輸入某網(wǎng)站的基本信息,包括網(wǎng)站的URL、網(wǎng)站的字符集、文件的保存 地址、是否為單條采集和是否為自動發(fā)布的等屬性。通過程序分析用戶配置的參數(shù),通過網(wǎng) 站URL入口利用現(xiàn)有爬蟲程序,遍歷頁面所有URL,通過程序?qū)RL分析,將URL分為可訪問 的URL、重復(fù)的URL、廢棄的URL。該步驟管理采集網(wǎng)站的基本信息,通過用戶輸入的信息,自動為采集的網(wǎng)站開辟 一個單獨的線程完成信息的采集、整理和存儲。同時,根據(jù)用戶輸入的參數(shù)和規(guī)則的制定完 成數(shù)據(jù)的整理和發(fā)布。步驟S202、信息采集方式主要是頁面采集,將步驟S201中獲得的可訪問的URL通 過循環(huán)程序,訪問URL對應(yīng)的網(wǎng)頁信息;獲得網(wǎng)頁的HTML源代碼信息。信息采集主要是根據(jù)用戶輸入的網(wǎng)站基本信息進行的。包括其一、根據(jù)輸入的參數(shù),自動判斷采集單條數(shù)據(jù)和多條數(shù)據(jù)。其二、根據(jù)輸入的網(wǎng)頁URL(此URL也是系統(tǒng)采集某網(wǎng)頁的入口),自動分析網(wǎng)站的 整體結(jié)構(gòu)。分析網(wǎng)頁的結(jié)構(gòu)方法采用的是平行性分析方法,該方法更具有針對性,能夠準(zhǔn)確 得到用戶想要的信息,過濾掉與其內(nèi)容相悖的信息。此方法得到與入口的RUL同等目錄的 所有URL連接地址;在依次遍歷URL得到網(wǎng)頁的源代碼。步驟S203通過用戶配置的html標(biāo)簽進行分析,將步驟S202中的采集到html 代碼進行過濾,獲得網(wǎng)站中農(nóng)業(yè)文本的信息。然后對所有信息進行分類、整理,然后存 儲到服務(wù)器中。以下是一個簡單的網(wǎng)頁文本結(jié)構(gòu)<title>農(nóng)業(yè)網(wǎng)絡(luò)文本信息采集技 術(shù)〈/titleXdivclass = ” time” >2010-6_30</div><div class =”sourc”> 農(nóng)業(yè) </ divXdivclass = "author,,> 農(nóng)業(yè)〈/divXdiv class =”content”> 發(fā)明內(nèi)容為例 </div>根據(jù)以上的網(wǎng)頁源碼配置規(guī)則如下1、標(biāo)題截取開始標(biāo)簽〈title〉,截取的結(jié)束標(biāo)簽〈/title〉。2、內(nèi)容截取的開始標(biāo)簽class = ” content” >,截取的結(jié)束標(biāo)簽</div>。3、時間截取的開始標(biāo)簽<div class =”time”>,截取的結(jié)束標(biāo)簽</div>。4、來源截取的開始標(biāo)簽class = ” sourc” >,截取的結(jié)束標(biāo)簽</div>。5、作者=Class =” author”〉截取的開始標(biāo)簽,截取的結(jié)束標(biāo)簽</div>規(guī)則配置好之后通過分析程序得到的結(jié)果如下1、標(biāo)題為農(nóng)業(yè)網(wǎng)絡(luò)文本信息采集技術(shù)。2、內(nèi)容為發(fā)明內(nèi)容為例。3、時間為2010-6-30。4、來源為農(nóng)業(yè)。5、作者為農(nóng)業(yè)。該步驟即為信息整理,是根據(jù)制定的規(guī)則處理網(wǎng)頁源代碼,從源代碼中抽取出用 戶需要的部分。包括標(biāo)題、來源、時間、作者、內(nèi)容。在整理的過程中系統(tǒng)會自動的判斷內(nèi) 容分頁的問題。其中標(biāo)題、來源、時間、作者這幾個部分在系統(tǒng)抽取的過程中自動的過濾掉 網(wǎng)頁原始的樣式。內(nèi)容則在抽取的過程中自動保留原始樣式。整理后下一步則進入數(shù)據(jù)存 儲階段。需要說明的是,在進行該步驟之前,要制定信息整理的規(guī)則。該規(guī)則是信息整理的 關(guān)鍵,信息整理會根據(jù)制定的規(guī)則規(guī)范網(wǎng)頁數(shù)據(jù)整理的工作。規(guī)則的制定共分為幾個部分標(biāo)題、時間、來源、作者、分頁。以上幾個部分是根據(jù)文本信息的基本結(jié)構(gòu)設(shè)計,用戶可以根 據(jù)需要采集不同的部分。規(guī)則制定模塊擺脫了固化的采集模式,不需要采集一個網(wǎng)站擴展 一次程序。只需要用戶配置一些網(wǎng)站的基本信息和規(guī)則信息即可。也就是說,在完成信息采集后,需要自動判斷是否制定了信息整理的規(guī)則,如果已 經(jīng)制定規(guī)則,再得到源代碼就進入下一步信息整理。如果沒有制定規(guī)則系統(tǒng)則遍歷URL得 到源代碼后結(jié)束。步驟S204、將S203整理好的數(shù)據(jù),結(jié)合S201步驟中參數(shù)的輸入對數(shù)據(jù)進行分類過 濾、整理、分析和存儲。整理的同時程序會根據(jù)S201步驟中參數(shù)的輸入自動判斷是否需要 自動進入步驟S205步驟S205、通過web程序,將S204步驟整理過的信息發(fā)布到Internet。這樣就可 以在一個網(wǎng)站查看到所有的新聞信息。例如以上的例子中已經(jīng)完成了一條信息的采集,如 果將此信息手動發(fā)布到網(wǎng)絡(luò)平臺,則直接點擊發(fā)布即可,方便用戶使用。步驟S204和步驟S205完成數(shù)據(jù)存儲和提出過程。信息存儲采用數(shù)據(jù)庫存儲,利用 現(xiàn)有的數(shù)據(jù)庫管理系統(tǒng),將零散的信息結(jié)構(gòu)化的管理起來。信息的發(fā)布就是將采集后的信 息發(fā)布到現(xiàn)有的網(wǎng)絡(luò)平臺。其中信息發(fā)布的方式有兩種其一自動方式,其二是手動方式。 在數(shù)據(jù)存儲時系統(tǒng)會根據(jù)第一步輸入的參數(shù)自動判斷信息發(fā)布的方式。本實施例擴展了普通爬蟲程序,應(yīng)用在農(nóng)業(yè)網(wǎng)絡(luò)文本信息集成系統(tǒng)中,實現(xiàn)了信 息采集、過濾、分類、儲存、發(fā)布的整合,使農(nóng)業(yè)信息更全面、更準(zhǔn)確,更權(quán)威。另一方面,本發(fā)明還提供了一種網(wǎng)絡(luò)文本信息集成裝置,參照圖3,該裝置包括 參數(shù)輸入模塊30、采集模塊32、信息整理及存儲模塊34和發(fā)布模塊36。其中,參數(shù)輸入模塊30,用于獲取網(wǎng)站的基本信息,并通過程序?qū)拘畔⑦M行 分析;采集模塊32,用于根據(jù)所述基本信息,遍歷URL,利用程序獲取網(wǎng)頁的頁面信息;信 息整理及存儲模塊34,用于根據(jù)預(yù)置規(guī)則,利用程序,對獲取的所述網(wǎng)頁信息進行分析,包 括過濾、整理、分類和存儲;發(fā)布模塊36,用于通過web程序,將所述整理過的信息發(fā)布到 Internet ο圖4為本發(fā)明網(wǎng)絡(luò)文本信息集成裝置實施例的結(jié)構(gòu)示意圖,如圖4所示,本實施例 網(wǎng)絡(luò)文本集成系統(tǒng)包括參數(shù)輸入模塊401、信息采集模塊402、信息整理模塊403、信息儲 存模塊404、信息發(fā)布模塊405。具體實施中,參數(shù)輸入模塊401通過網(wǎng)絡(luò)爬蟲遍歷所有的URL。信息采集模塊402得到參數(shù)輸入模塊401輸入的網(wǎng)址,通過程序訪問相應(yīng)的URL, 獲得相應(yīng)的網(wǎng)站信息,初始信息為HTML代碼。信息整理模塊403對信息采集模塊402得到的HTML代碼進行過濾,獲得文本和文 本對應(yīng)的圖片等信息,并將信息分類、整合。信息儲存模塊404將信息整理模塊403整合的網(wǎng)絡(luò)文本信息進行網(wǎng)絡(luò)存儲,存儲 方式為NAS。信息發(fā)布模塊405將信息儲存模塊404中存儲的整合過的農(nóng)業(yè)網(wǎng)絡(luò)文本信息通過 web程序發(fā)布至Ij Internet。本實施例通過,改進普通爬蟲程序,應(yīng)用在農(nóng)業(yè)網(wǎng)絡(luò)文本信息集成系統(tǒng)中,實現(xiàn)了 信息采集、過濾、分類、儲存、發(fā)布的整合,使農(nóng)業(yè)信息更全面、更準(zhǔn)確,更權(quán)威。
以上對本發(fā)明所提供的一種網(wǎng)絡(luò)文本信息集成方法和裝置進行詳細介紹,本文中 應(yīng)用了具體實施例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫 助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思 想,在具體實施方式
及應(yīng)用范圍上均會有改變之處。綜上所述,本說明書內(nèi)容不應(yīng)理解為對 本發(fā)明的限制。
權(quán)利要求
一種網(wǎng)絡(luò)文本信息集成方法,其特征在于,所述方法包括如下步驟參數(shù)輸入步驟,獲取網(wǎng)站的基本信息,自動對基本信息進行分析;采集步驟,根據(jù)所述基本信息,遍歷URL,自動獲取網(wǎng)頁的頁面信息;信息整理及存儲步驟,根據(jù)預(yù)置規(guī)則,自動對獲取的所述網(wǎng)頁信息進行分析,包括過濾、整理、分類和存儲;發(fā)布步驟,將所述整理過的信息自動發(fā)布到Internet。
2.根據(jù)權(quán)利要求1所述的信息集成方法,其特征在于,所述參數(shù)輸入步驟中,所述網(wǎng)站基本信息包括網(wǎng)站的URL、網(wǎng)站的字符集、文件的保 存地址、是否為單條采集和是否為自動發(fā)布。
3.根據(jù)權(quán)利要求2所述的信息集成方法,其特征在于,所述參數(shù)輸入步驟中,所述自動 對基本信息進行分析包括依據(jù)基本信息,通過程序分析用戶配置的參數(shù),通過網(wǎng)站URL入口,基于爬蟲,遍歷頁 面所有URL,通過程序?qū)RL分析,將URL分為可訪問的URL、重復(fù)的URL和廢棄的URL。
4.根據(jù)權(quán)利要求3所述的信息集成方法,其特征在于,所述采集步驟中,將所述可訪問的URL通過循環(huán)程序,訪問URL對應(yīng)的網(wǎng)頁信息,獲取 網(wǎng)頁HTML源代碼信息。
5.根據(jù)權(quán)利要求4所述的信息集成方法,其特征在于,所述信息整理步驟中,將獲取的所述網(wǎng)頁HTML源代碼信息進行過濾,獲取文本的信肩、ο
6.一種網(wǎng)絡(luò)文本信息集成裝置,其特征在于,所述裝置包括參數(shù)輸入模塊,用于獲取網(wǎng)站的基本信息,自動對基本信息進行分析; 采集模塊,用于根據(jù)所述基本信息,遍歷URL,自動獲取網(wǎng)頁的頁面信息; 信息整理及存儲模塊,用于根據(jù)預(yù)置規(guī)則,自動對獲取的所述網(wǎng)頁信息進行分析,包括 過濾、整理、分類和存儲;發(fā)布模塊,用于將所述整理過的信息自動發(fā)布到Internet。
7.根據(jù)權(quán)利要求6所述的信息集成裝置,其特征在于,所述參數(shù)輸入模塊中,所述網(wǎng)站基本信息包括網(wǎng)站的URL、網(wǎng)站的字符集、文件的保 存地址、是否為單條采集和是否為自動發(fā)布。
8.根據(jù)權(quán)利要求7所述的信息集成裝置,其特征在于,所述參數(shù)輸入模塊中,所述自動 對基本信息進行分析為依據(jù)基本信息,通過程序分析用戶配置的參數(shù),通過網(wǎng)站URL入口,基于爬蟲程序,遍 歷頁面所有URL,通過程序?qū)RL分析,將URL分為可訪問的URL、重復(fù)的URL和廢棄的URL。
9.根據(jù)權(quán)利要求8所述的信息集成裝置,其特征在于,所述采集模塊中,將所述可訪問的URL通過循環(huán)程序,訪問URL對應(yīng)的網(wǎng)頁信息,獲取 網(wǎng)頁HTML源代碼信息。
10.根據(jù)權(quán)利要求9所述的信息集成裝置,其特征在于,所述信息整理模塊中,將獲取的所述網(wǎng)頁HTML源代碼信息進行過濾,獲取文本的信肩、ο全文摘要
本發(fā)明公開了一種網(wǎng)絡(luò)文本信息集成方法和裝置。該方法包括如下步驟獲取網(wǎng)站的基本信息,并通過程序?qū)拘畔⑦M行分析;根據(jù)所述基本信息,遍歷URL,利用程序獲取網(wǎng)頁的頁面信息;根據(jù)預(yù)置規(guī)則,利用程序,對獲取的所述網(wǎng)頁信息進行整理和存儲;通過web程序,將所述整理過的信息發(fā)布到Internet。本發(fā)明能夠針對用戶的需求,進行網(wǎng)頁的多層次分析,提取用戶所關(guān)心的內(nèi)容,進行存儲和發(fā)布;進而,高效的實現(xiàn)農(nóng)業(yè)網(wǎng)絡(luò)文本信息的采集和存儲,解決現(xiàn)有技術(shù)采集網(wǎng)頁的寬度和廣度的問題。
文檔編號G06F17/30GK101957866SQ20101052366
公開日2011年1月26日 申請日期2010年10月25日 優(yōu)先權(quán)日2010年10月25日
發(fā)明者張樹亮, 李楨, 臧金玉, 趙佳寧, 高萬林 申請人:中國農(nóng)業(yè)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
平凉市| 无极县| 忻州市| 无为县| 颍上县| 岗巴县| 鲁山县| 东丽区| 巨鹿县| 赤水市| 长治县| 比如县| 广平县| 遂川县| 望都县| 竹山县| 阳春市| 乐都县| 广汉市| 寻乌县| 新巴尔虎左旗| 江口县| 左云县| 汝阳县| 尉犁县| 龙井市| 古交市| 安康市| 丰县| 淮阳县| 莒南县| 疏附县| 安国市| 普安县| 南昌市| 娱乐| 宜城市| 新丰县| 青龙| 横峰县| 峡江县|