欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)站信息分析系統(tǒng)及其方法

文檔序號:6337731閱讀:147來源:國知局
專利名稱:一種網(wǎng)站信息分析系統(tǒng)及其方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種對網(wǎng)站的信息分析系統(tǒng),特別是涉及一種網(wǎng)站信息分析系統(tǒng)及其 方法。
背景技術(shù)
現(xiàn)有技術(shù)的針對網(wǎng)站的信息分析過程,主要采用人工通過瀏覽器訪問網(wǎng)站(如果 需要權(quán)限的網(wǎng)站還需要用戶名和密碼登陸),然后采用截屏方式對網(wǎng)站頁面進行截屏信息 分析;如果網(wǎng)頁頁面比較長的話,需要采用特殊的截屏工具才能截取整個頁面;同時還存 在著網(wǎng)站結(jié)構(gòu)復(fù)雜等問題,采用人工方式工作量大又沒有辦法準確得完成整個網(wǎng)站的信息 分析工作。因此,現(xiàn)有技術(shù)在解決網(wǎng)站信息分析時存在如下問題一是,對于頁面較長的數(shù) 據(jù)需要特殊的截屏工具才能完成截屏,致使操作復(fù)雜;二是,對于結(jié)構(gòu)復(fù)雜的網(wǎng)站,不但人 工工作量大,并且容易出現(xiàn)頁面遺漏現(xiàn)象;三是,在網(wǎng)站內(nèi)容信息分析過程中,如果已經(jīng)信 息分析過的頁面內(nèi)容發(fā)生變化沒有辦法及時發(fā)現(xiàn),導(dǎo)致信息分析內(nèi)容跟頁面內(nèi)容出現(xiàn)不一 致現(xiàn)象;四是,網(wǎng)站信息分析的結(jié)果需要人工錄入形成報表,工作量大。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)之不足,提供一種網(wǎng)站信息分析系統(tǒng)及其方法, 是利用網(wǎng)絡(luò)爬蟲技術(shù)和內(nèi)存自動成像技術(shù)來實現(xiàn)對網(wǎng)站的自動信息分析過程,該信息分析 系統(tǒng)不但能夠?qū)崿F(xiàn)自動信息分析,而且能夠消除人工信息分析所存在的頁面遺漏現(xiàn)象,具 有信息分析準確、快速、無遺漏,以及操作容易的特點。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是一種網(wǎng)站自動信息分析的信息分析 系統(tǒng),包括一權(quán)限驗證器,其用來對目標網(wǎng)站進行權(quán)限檢測,向目標網(wǎng)站發(fā)送登陸指令以提 取網(wǎng)站的頁面信息,判定目標網(wǎng)站是否需要用戶名和密碼登陸訪問,對于需要用戶名和密 碼登陸訪問的目標網(wǎng)站,利用網(wǎng)絡(luò)爬蟲技術(shù)分析模塊模擬網(wǎng)站的登陸流程自動登陸目標網(wǎng) 站;一鏈接提取器,其用來獲取目標網(wǎng)站的所有鏈接數(shù)據(jù)信息,利用鏈接提取算法模 塊,從目標網(wǎng)站的頁面中提取所有鏈接數(shù)據(jù)信息;—鏈接分析器,其用來對所有鏈接數(shù)據(jù)信息進行分析,并按照預(yù)先設(shè)定的分類方 式對所有鏈接數(shù)據(jù)信息進行分類分析;一鏈接頁面成像器,其用來對已經(jīng)分類好的鏈接數(shù)據(jù)信息進行內(nèi)存成像分析,以 將鏈接頁面自動加載在內(nèi)存中并對頁面直接進行成像保存分析,保存于指定存儲器中;一增量信息分析器,其用來重新遍歷目標網(wǎng)站的所有鏈接并成像存儲未出現(xiàn)于指 定存儲器的鏈接隊列;一報表生成器,根據(jù)成像的鏈接數(shù)據(jù)信息生成預(yù)置格式的報表;權(quán)限驗證器的輸出接至鏈接提取器的輸入,權(quán)限驗證器將目標網(wǎng)站的頁面信息輸給鏈接提取器,由鏈接提取器進行網(wǎng)站頁面鏈接數(shù)據(jù)信息的提?。绘溄犹崛∑鞯妮敵鼋又?鏈接分析器的輸入,鏈接提取器將提取的鏈接數(shù)據(jù)信息輸給鏈接分析器,由鏈接分析器進 行歸類整理;鏈接分析器的輸出接至鏈接頁面成像器的輸入,鏈接分析器將歸類整理的鏈 接數(shù)據(jù)信息輸給鏈接頁面成像器,由鏈接頁面成像器進行鏈接頁面成像分析;鏈接頁面成 像器的輸出接至增量信息分析器的輸入,由增量信息分析器重新遍歷目標網(wǎng)站的所有鏈接 并成像存儲未出現(xiàn)于指定存儲器的鏈接隊列;增量信息分析器的輸出接至報表生成器,由 報表生成器生成報表。一種網(wǎng)站信息分析方法,包括如下步驟對目標網(wǎng)站進行權(quán)限檢測的步驟;該步驟用來判定目標網(wǎng)站是否需要用戶名和密 碼登陸訪問,對于需要用戶名和密碼登陸訪問的目標網(wǎng)站,采用網(wǎng)絡(luò)爬蟲技術(shù)模擬網(wǎng)站的 登陸流程自動登陸目標網(wǎng)站;獲取目標網(wǎng)站的所有鏈接的步驟;該步驟是采用鏈接提取算法來提取目標網(wǎng)站中 的所有鏈接數(shù)據(jù)信息;分析所述鏈接數(shù)據(jù)信息并對其進行分類的步驟;該步驟是根據(jù)預(yù)置的方式對鏈接 數(shù)據(jù)信息進行分類分析;對分類好的所述鏈接數(shù)據(jù)信息進行內(nèi)存成像分析并保存于指定存儲器的步驟;重新遍歷目標網(wǎng)站的所有鏈接并成像存儲未出現(xiàn)在指定存儲器的鏈接隊列的步 驟;根據(jù)成像的鏈接數(shù)據(jù)信息生成報表的步驟。所述對分類好的所述鏈接數(shù)據(jù)信息進行內(nèi)存成像分析并保存于指定存儲器的步 驟,其進一步包括A.提取內(nèi)存中分類好的鏈接隊列中的鏈接信息;B.創(chuàng)建一個應(yīng)用程序窗口,該窗口具有一定的初始大小,同時該窗口處于隱藏狀 態(tài);C.綁定一個瀏覽器內(nèi)核到該窗口上;D.通過瀏覽器內(nèi)核訪問并加載鏈接頁面內(nèi)容;E.瀏覽器內(nèi)核加載的鏈接頁面通過綁定的窗口展現(xiàn)在窗口中;F.當鏈接頁面加載完成或達到預(yù)定時間,則對隱藏窗口頁面內(nèi)容進行成像存儲;G.獲取鏈接頁面內(nèi)容在窗口中的長度和高度,調(diào)用圖形GDI接口對該范圍內(nèi)的窗 口輸出進行成像保存;H.重復(fù)步驟A至G,直至鏈接隊列容器中的鏈接為空。所述重新遍歷目標網(wǎng)站的所有鏈接并成像存儲未出現(xiàn)在指定存儲器的鏈接隊列 的步驟,其進一步包括a.將已遍歷的鏈接信息以及內(nèi)存成像器成像過的鏈接信息保存在內(nèi)存哈西容器 中;b.對整個網(wǎng)站重新進行遍歷,將提取到的鏈接信息發(fā)送到內(nèi)存哈西容器中進行快 速查找,若發(fā)現(xiàn)該鏈接已經(jīng)存在則直接忽略,否則對鏈接進行分類進入鏈接列隊;c.內(nèi)存成像器對鏈接隊列中的鏈接進行成像保存,同時將鏈接的信息存入內(nèi)存哈 西容器中。
本發(fā)明的有益效果是,由于本發(fā)明采用了權(quán)限驗證器、鏈接提取器、鏈接分析器、 鏈接頁面成像器、增量信息分析器和報表生成器來構(gòu)成網(wǎng)站信息分析系統(tǒng),利用權(quán)限驗證 器對目標網(wǎng)站進行權(quán)限檢測,利用鏈接提取器來獲取目標網(wǎng)站的所有鏈接數(shù)據(jù)信息,利用 鏈接分析器對所有鏈接數(shù)據(jù)信息進行分析分析,利用鏈接頁面成像器來對已經(jīng)分類好的鏈 接數(shù)據(jù)信息進行內(nèi)存成像分析,利用增量信息分析器來重新遍歷目標網(wǎng)站的所有鏈接并成 像存儲未出現(xiàn)于指定存儲器的鏈接隊列,利用報表生成器來生成預(yù)置格式的報表。采用本 發(fā)明的系統(tǒng)及其方法,不但能夠?qū)崿F(xiàn)自動信息分析,而且能夠消除人工信息分析所存在的 頁面遺漏現(xiàn)象,具有信息分析準確、快速、無遺漏,以及操作容易的特點。這種利用網(wǎng)絡(luò)爬蟲 技術(shù)和內(nèi)存自動成像技術(shù)來實現(xiàn)對網(wǎng)站的自動信息分析過程,可代替?zhèn)鹘y(tǒng)的人工手動對網(wǎng) 站信息分析的大工作量的過程,極大提高工作效率。以下結(jié)合附圖及實施例對本發(fā)明作進一步詳細說明;但本發(fā)明的一種網(wǎng)站信息分 析系統(tǒng)及其方法不局限于實施例。


圖1是本發(fā)明的系統(tǒng)的框圖。
具體實施例方式實施例,參見附圖所示,本發(fā)明的一種網(wǎng)站信息分析系統(tǒng),包括一權(quán)限驗證器1,其用來對目標網(wǎng)站進行權(quán)限檢測,向目標網(wǎng)站發(fā)送登陸指令以提 取網(wǎng)站的頁面信息,判定目標網(wǎng)站是否需要用戶名和密碼登陸訪問,對于需要用戶名和密 碼登陸訪問的目標網(wǎng)站,利用網(wǎng)絡(luò)爬蟲技術(shù)分析模塊模擬網(wǎng)站的登陸流程自動登陸目標網(wǎng) 站;—鏈接提取器2,其用來獲取目標網(wǎng)站的所有鏈接數(shù)據(jù)信息,利用鏈接提取算法模 塊,從目標網(wǎng)站的頁面中提取所有鏈接數(shù)據(jù)信息;一鏈接分析器3,其用來對所有鏈接數(shù)據(jù)信息進行分析分析,并按照預(yù)先設(shè)定的分 類方式對所有鏈接數(shù)據(jù)信息進行分類分析;一鏈接頁面成像器4,其用來對已經(jīng)分類好的鏈接數(shù)據(jù)信息進行內(nèi)存成像分析,以 將鏈接頁面自動加載在內(nèi)存中并對頁面直接進行成像保存分析,保存于指定存儲器中;一增量信息分析器5,其用來重新遍歷目標網(wǎng)站的所有鏈接并成像存儲未出現(xiàn)于 指定存儲器的鏈接隊列;一報表生成器6,根據(jù)成像的鏈接數(shù)據(jù)信息生成預(yù)置格式的報表;權(quán)限驗證器1的輸出接至鏈接提取器2的輸入,權(quán)限驗證器1將目標網(wǎng)站的頁面 信息輸給鏈接提取器2,由鏈接提取器2進行網(wǎng)站頁面鏈接數(shù)據(jù)信息的提??;鏈接提取器2 的輸出接至鏈接分析器3的輸入,鏈接提取器2將提取的鏈接數(shù)據(jù)信息輸給鏈接分析器3, 由鏈接分析器3進行歸類整理;鏈接分析器3的輸出接至鏈接頁面成像器4的輸入,鏈接分 析器3將歸類整理的鏈接數(shù)據(jù)信息輸給鏈接頁面成像器4,由鏈接頁面成像器4進行鏈接頁 面成像分析;鏈接頁面成像器4的輸出接至增量信息分析器5的輸入,由增量信息分析器5 重新遍歷目標網(wǎng)站的所有鏈接并成像存儲未出現(xiàn)于指定存儲器的鏈接隊列;增量信息分析 器5的輸出接至報表生成器6,由報表生成器6生成報表。
本發(fā)明的一種網(wǎng)站信息分析方法,包括如下步驟1、對目標網(wǎng)站進行權(quán)限檢測的步驟;本步驟用來判定目標網(wǎng)站是否需要用戶名和密碼登陸訪問,對于需要用戶名和密 碼登陸訪問的目標網(wǎng)站,采用網(wǎng)絡(luò)爬蟲技術(shù)模擬網(wǎng)站的登陸流程自動登陸目標網(wǎng)站;本步 驟通過“網(wǎng)絡(luò)爬蟲”對用戶設(shè)定的網(wǎng)站地址進行權(quán)限檢測,權(quán)限檢測的目的是為了確定網(wǎng)站 是否需要用戶名和密碼登陸訪問;權(quán)限檢測的方法主要通過訪問網(wǎng)站返回的狀態(tài)值和提示 信息進行判斷,也可以提過人工預(yù)先設(shè)置狀態(tài)值的辦法;如果網(wǎng)站需求用戶名和密碼才能 訪問,網(wǎng)絡(luò)爬蟲需要模擬網(wǎng)站的登陸流程實現(xiàn)自動登陸;網(wǎng)絡(luò)爬蟲可以通過錄制網(wǎng)絡(luò)包的 方法,將整個登陸過程發(fā)送的數(shù)據(jù)包錄制下來,后續(xù)訪問失效的時候通過回放登陸包的流 程進行自動登陸。2、獲取目標網(wǎng)站的所有鏈接的步驟;本步驟是采用鏈接提取算法來提取目標網(wǎng)站中的所有鏈接數(shù)據(jù)信息;本步驟是根據(jù)任務(wù)網(wǎng)站的地址,通過鏈接提取算法,從任務(wù)網(wǎng)站的頁面中提取所 有鏈接;本步驟中,鏈接提取算法可以采用正則表達式或者字符特征匹配的方法。一個網(wǎng) 頁頁面中可能出現(xiàn)鏈接的地方主要有以下幾處1)、〈BASE href = URL>,表示基URL,在HTML中,路徑信息經(jīng)常通過URL來指定, 相對URL根據(jù)基URL來決定;2)、<A href = URL>,這是最常用的鏈接格式,用于鏈接到另一個TOB頁面或鏈接 到同一頁面的其他地方;3)、〈LINK href = URL>,用于鏈接WEB頁面使用到的CSS樣式表地址或者 javascript 1^0 !:;4)、〈FRAME src = URL>,在框架頁面中用于鏈接框架所指向的頁面地址;5) IFRAME src = URL>,IFRAME是框架的一種形式,它與 FRAME不同的是,IFRAME 可以嵌在網(wǎng)頁中的任意部分。如果采用字符特征匹配算法,就是去找字符串“href”和“src”后面的鏈接;如果采用正則表示式,我們構(gòu)造正則表達式<·* (src|href)\s* = \s*[\〃 |,] ( ? <uri>["' >\s]+)。通過這個正 則表達式我們就可以獲得網(wǎng)頁中所有鏈接。3、分析所述鏈接數(shù)據(jù)信息并對其進行分類的步驟;該步驟是根據(jù)預(yù)置的方式對鏈 接數(shù)據(jù)信息進行分類分析;本步驟對于提取到的鏈接需要進行分析歸類,歸類的目的是為了讓信息分析的結(jié) 果更符合用戶的需求。根據(jù)不同的網(wǎng)站的類型,有不同的歸類策略。論壇網(wǎng)站需要歸類出列表頁、列表翻頁、帖子主頁、帖子翻頁;對于用戶來說截屏的重點在于帖子主頁,因為主要的內(nèi)容都在帖子主頁;因此鏈 接歸類對網(wǎng)站截屏信息分析是一個非常重要的步驟。比如像比較常見的開源免費的Discuz論壇,其各個類型的鏈接舉例如下列表頁http://xxx. com/forum-29-1. html ;列表翻頁:http://xxx. com/forum-29-2. html ;
7
http://xxx. com/forum-29-3. html ; http://xxx. com/forum-29-4. html ; 也就是最后一位數(shù)字的遞加來表示翻頁; 中占子頁http://xxx. com/thread-1878415-1-1. html ; 中占子翻頁:http://xxx. com/thread-1878415-2-1. html ;
http://xxx. com/thread-1878415-3-1. html ; http://xxx. com/thread-1878415-4-1. html ;也就是通過倒數(shù)第二個數(shù)字的遞加來表示翻頁;對于這些不同類型的鏈接分析歸類,我們采用前綴規(guī)則技術(shù)和特征字符相結(jié)合的 方式進行歸類。前綴規(guī)則技術(shù)即采用一定的前綴字符規(guī)則來進行模式匹配,上述例子中的帖子頁 和帖子翻頁的前綴規(guī)則都是forum-,帖子頁和帖子翻頁的前綴規(guī)則都是thread-。前綴規(guī) 則我們可以采用預(yù)先訓(xùn)練好的模板可進行快速提取,也可通過人工事先設(shè)置好的規(guī)則。根 據(jù)前綴規(guī)則我們就可以對鏈接進行準確的分析歸類。鏈接的特征字符提取是對前綴規(guī)則歸類過的鏈接進行進一步歸類,即將同一主題 或同一版塊內(nèi)容的列表頁及其翻頁歸為一類、同一帖子及其帖子翻頁歸為一類。這樣歸類 的目的有三個(1)為了網(wǎng)絡(luò)爬蟲繼續(xù)搜索爬取頁面的向?qū)е敢?2)為后續(xù)步驟中內(nèi)存成 像做準備,即對某種類型的鏈接頁面才進行內(nèi)存成像;C3)為了過濾鏈接,減少爬蟲搜索的 鏈接數(shù)目。鏈接的特征字符提取采用字符分割算法,主要步驟如下一是,去除域名部分(前提是每個鏈接都包含域名部分,通過爬蟲程序可進 行構(gòu)造)從字符首字母向后找第一個’ /’字符,將’ /’字符及其前面的所有字符截 斷,如鏈接http://xxx. com/thread-1878415-1-1. html,去除域名部分后的字符為 thread-1878415-1-1. html ;二是,去除翻頁分割部分字符利用預(yù)先設(shè)置好的翻頁分割字符對前一步驟得出 的字符進行反向查找匹配,若出現(xiàn)翻頁分隔符,將翻頁分隔符及其后面的字符截斷,直至字 符只剩下前綴規(guī)則跟相應(yīng)數(shù)字組成的部分;該步驟中去除翻頁分割部分字符后的字符為 thread-1878415 ;三是,剔除無效字符利用預(yù)先設(shè)置好的無效字符分割符對前一步驟得出的字符 進行反向查找,若出現(xiàn)無效字符分隔符,將無效字符分隔符及其后面的字符截斷,直至字符 中不再出現(xiàn)無效字符分隔符。根據(jù)上述三個步驟我們可對前綴規(guī)則歸類好的鏈接進行特征提取,之后爬蟲所分 析提取到的鏈接都將按照這些特征進行歸類。內(nèi)存中得到歸類結(jié)果的鏈接隊列容器如下
8
權(quán)利要求
1.一種網(wǎng)站信息分析系統(tǒng),其特征在于包括一權(quán)限驗證器,其用來對目標網(wǎng)站進行權(quán)限檢測,向目標網(wǎng)站發(fā)送登陸指令以提取網(wǎng) 站的頁面信息,判定目標網(wǎng)站是否需要用戶名和密碼登陸訪問,對于需要用戶名和密碼登 陸訪問的目標網(wǎng)站,利用網(wǎng)絡(luò)爬蟲技術(shù)分析模塊模擬網(wǎng)站的登陸流程自動登陸目標網(wǎng)站;一鏈接提取器,其用來獲取目標網(wǎng)站的所有鏈接數(shù)據(jù)信息,利用鏈接提取算法模塊,從 目標網(wǎng)站的頁面中提取所有鏈接數(shù)據(jù)信息;一鏈接分析器,其用來對所有鏈接數(shù)據(jù)信息進行分析,并按照預(yù)先設(shè)定的分類方式對 所有鏈接數(shù)據(jù)信息進行分類分析;一鏈接頁面成像器,其用來對已經(jīng)分類好的鏈接數(shù)據(jù)信息進行內(nèi)存成像分析,以將鏈 接頁面自動加載在內(nèi)存中并對頁面直接進行成像保存分析,保存于指定存儲器中;一增量信息分析器,其用來重新遍歷目標網(wǎng)站的所有鏈接并成像存儲未出現(xiàn)于指定存 儲器的鏈接隊列;一報表生成器,根據(jù)成像的鏈接數(shù)據(jù)信息生成預(yù)置格式的報表; 權(quán)限驗證器的輸出接至鏈接提取器的輸入,權(quán)限驗證器將目標網(wǎng)站的頁面信息輸給鏈 接提取器,由鏈接提取器進行網(wǎng)站頁面鏈接數(shù)據(jù)信息的提取;鏈接提取器的輸出接至鏈接 分析器的輸入,鏈接提取器將提取的鏈接數(shù)據(jù)信息輸給鏈接分析器,由鏈接分析器進行歸 類整理;鏈接分析器的輸出接至鏈接頁面成像器的輸入,鏈接分析器將歸類整理的鏈接數(shù) 據(jù)信息輸給鏈接頁面成像器,由鏈接頁面成像器進行鏈接頁面成像分析;鏈接頁面成像器 的輸出接至增量信息分析器的輸入,由增量信息分析器重新遍歷目標網(wǎng)站的所有鏈接并成 像存儲未出現(xiàn)于指定存儲器的鏈接隊列;增量信息分析器的輸出接至報表生成器,由報表 生成器生成報表。
2.—種網(wǎng)站信息分析方法,其特征在于包括如下步驟對目標網(wǎng)站進行權(quán)限檢測的步驟;該步驟用來判定目標網(wǎng)站是否需要用戶名和密碼登 陸訪問,對于需要用戶名和密碼登陸訪問的目標網(wǎng)站,采用網(wǎng)絡(luò)爬蟲技術(shù)模擬網(wǎng)站的登陸 流程自動登陸目標網(wǎng)站;獲取目標網(wǎng)站的所有鏈接的步驟;該步驟是采用鏈接提取算法來提取目標網(wǎng)站中的所 有鏈接數(shù)據(jù)信息;分析所述鏈接數(shù)據(jù)信息并對其進行分類的步驟;該步驟是根據(jù)預(yù)置的方式對鏈接數(shù)據(jù) 信息進行分類分析;對分類好的所述鏈接數(shù)據(jù)信息進行內(nèi)存成像分析并保存于指定存儲器的步驟; 重新遍歷目標網(wǎng)站的所有鏈接并成像存儲未出現(xiàn)在指定存儲器的鏈接隊列的步驟; 根據(jù)成像的鏈接數(shù)據(jù)信息生成報表的步驟。
3.根據(jù)權(quán)利要求2所述的網(wǎng)站信息分析方法,其特征在于所述對分類好的所述鏈接 數(shù)據(jù)信息進行內(nèi)存成像分析并保存于指定存儲器的步驟,其進一步包括A.提取內(nèi)存中分類好的鏈接隊列中的鏈接信息;B.創(chuàng)建一個應(yīng)用程序窗口,該窗口具有一定的初始大小,同時該窗口處于隱藏狀態(tài);C.綁定一個瀏覽器內(nèi)核到該窗口上;D.通過瀏覽器內(nèi)核訪問并加載鏈接頁面內(nèi)容;E.瀏覽器內(nèi)核加載的鏈接頁面通過綁定的窗口展現(xiàn)在窗口中;F.當鏈接頁面加載完成或達到預(yù)定時間,則對隱藏窗口頁面內(nèi)容進行成像存儲;G.獲取鏈接頁面內(nèi)容在窗口中的長度和高度,調(diào)用圖形GDI接口對該范圍內(nèi)的窗口輸 出進行成像保存;H.重復(fù)步驟A至G,直至鏈接隊列容器中的鏈接為空。
4.根據(jù)權(quán)利要求2所述的網(wǎng)站信息分析方法,其特征在于所述重新遍歷目標網(wǎng)站的 所有鏈接并成像存儲未出現(xiàn)在指定存儲器的鏈接隊列的步驟,其進一步包括a.將已遍歷的鏈接信息以及內(nèi)存成像器成像過的鏈接信息保存在內(nèi)存哈西容器中;b.對整個網(wǎng)站重新進行遍歷,將提取到的鏈接信息發(fā)送到內(nèi)存哈西容器中進行快速查 找,若發(fā)現(xiàn)該鏈接已經(jīng)存在則直接忽略,否則對鏈接進行分類進入鏈接列隊;c.內(nèi)存成像器對鏈接隊列中的鏈接進行成像保存,同時將鏈接的信息存入內(nèi)存哈西容 器中。
全文摘要
本發(fā)明公開了一種網(wǎng)站信息分析系統(tǒng)及其方法,該系統(tǒng)包括權(quán)限驗證器、鏈接提取器、鏈接分析器、鏈接頁面成像器、增量信息分析器和報表生成器,其方法是利用權(quán)限驗證器對目標網(wǎng)站進行權(quán)限檢測,利用鏈接提取器來獲取目標網(wǎng)站的所有鏈接數(shù)據(jù)信息,利用鏈接分析器對所有鏈接數(shù)據(jù)信息進行分析,利用鏈接頁面成像器來對已經(jīng)分類好的鏈接數(shù)據(jù)信息進行內(nèi)存成像分析,利用增量信息分析器來重新遍歷目標網(wǎng)站的所有鏈接并成像存儲未出現(xiàn)于指定存儲器的鏈接隊列,利用報表生成器來生成預(yù)置格式的報表。采用本發(fā)明的系統(tǒng)及其方法,不但能夠?qū)崿F(xiàn)自動信息分析,而且能夠消除人工信息分析所存在的頁面遺漏現(xiàn)象,具有信息分析準確、快速、無遺漏,以及操作容易的特點。
文檔編號G06F17/30GK102073678SQ201010574349
公開日2011年5月25日 申請日期2010年12月3日 優(yōu)先權(quán)日2010年12月3日
發(fā)明者吳世雄, 張永光, 陳奮 申請人:廈門市美亞柏科信息股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
怀柔区| 开封市| 湛江市| 延寿县| 河源市| 安平县| 浦东新区| 鄢陵县| 清苑县| 富源县| 揭西县| 杨浦区| 扬中市| 柞水县| 普格县| 五台县| 观塘区| 吴江市| 华坪县| 泊头市| 绥棱县| 会同县| 厦门市| 渝北区| 乳山市| 体育| 葵青区| 永吉县| 五莲县| 铜梁县| 莫力| 阿合奇县| 登封市| 阿克苏市| 威海市| 从化市| 龙门县| 治县。| 桦南县| 河津市| 灌南县|