專利名稱::提取網(wǎng)頁正文內(nèi)容的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及互聯(lián)網(wǎng)信息處理領(lǐng)域,特別是涉及一種提取網(wǎng)頁正文內(nèi)容的方法和系統(tǒng)。
背景技術(shù):
:隨著互聯(lián)網(wǎng)的迅速發(fā)展,互聯(lián)網(wǎng)上的信息量以幾何級數(shù)倍增。人們需要在海量的信息庫中查找自己需要的信息,并且可能需要對獲得的信息進行進一步的加工和分析。但是很多原始內(nèi)容為了方便用戶瀏覽而加入的導航鏈接、出于商業(yè)利益而加入的廣告鏈接、版權(quán)信息以及相關(guān)主題閱讀推薦鏈接等。這些信息摻雜在網(wǎng)頁中,影響了用戶對主題內(nèi)容的瀏覽。如何從包含大量噪音內(nèi)容的網(wǎng)頁中將正文信息準確、完整地提取出來成為了研究課題。目前常用的方案有如下兩種第一種方式是米用RSS(簡易信息聚合,也叫聚合內(nèi)容,是一種描述和同步網(wǎng)站內(nèi)容的格式)種子文件作為信息源。由于RSS種子文件通常是按照標準的RSS規(guī)范編寫的,通過簡單的XML解析技術(shù)即可分離出需要的標題、發(fā)布時間、正文內(nèi)容等信息,例如,RSS閱讀器都米用這一方式。第二種方式是直接采用某些特定的網(wǎng)站的WEB頁面作為信息源,根據(jù)WEB頁面的編碼特點開發(fā)專有的解析器來獲取需要的信息。目前使用的大部分新聞閱讀客戶端都采用這一方式。然而,對于第一種方式,由于很多網(wǎng)站并沒有提供RSS種子,且很多網(wǎng)站即使提供了RSS種子,但為了不影響其網(wǎng)站的流量,種子文件中通常只包含導讀內(nèi)容。這就導致很多信息被排除在可選擇范圍之外,也可能導致用戶獲得的信息不完整。對于第二種方式,這會帶來大量的定制性開發(fā),同時較為硬性的排版識別要求會因為目標網(wǎng)站排版的不斷變化而帶來許多維護性開發(fā)。而這些定制性和維護性的開發(fā)帶來工作量的攀升導致它只能覆蓋有限的主流網(wǎng)站,同樣會導致許多信息被排除在可選范圍之外。因此,目前對于網(wǎng)頁主要內(nèi)容進行提取需要解決的問題是覆蓋面窄、可維護性差。
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種提取網(wǎng)頁正文內(nèi)容的方法和系統(tǒng),其覆蓋面廣、可維護性強。本發(fā)明的目的通過如下技術(shù)方案實現(xiàn)一種提取網(wǎng)頁正文內(nèi)容的方法,包括如下步驟獲取html源文件,并將該html源文件轉(zhuǎn)化為字符流;剔除所述字符流中的無效標簽;將剩余的標簽轉(zhuǎn)化為標簽樹,并將該標簽樹轉(zhuǎn)換成標簽隊列;對所述隊列標簽中的各標簽進行標簽處理直到隊列為空,獲得有效標簽集;將有效標簽集轉(zhuǎn)化成文本,返回為正文。一種提取網(wǎng)頁正文內(nèi)容的系統(tǒng),包括獲取模塊,用于獲取html源文件,并將該html源文件轉(zhuǎn)化為字符流;過濾模塊,用于剔除所述字符流中的無效標簽;標簽樹生成模塊,用于將剩余的標簽轉(zhuǎn)化為標簽樹,并將該標簽樹轉(zhuǎn)換成標簽隊列;遍歷標簽隊列模塊,用于對所述隊列標簽中的各標簽進行標簽處理直到隊列為空,獲得有效標簽集;正文確定模塊,用于將有效標簽集轉(zhuǎn)化成文本,返回為正文。依據(jù)上述本發(fā)明的方案,其是在獲取html源文件,并將該html源文件轉(zhuǎn)化為字符流后,剔除該字符流中的無效標簽,再將剩余的標簽轉(zhuǎn)化為標簽樹,并將該標簽樹轉(zhuǎn)換成標簽隊列,對所述隊列標簽中的各標簽進行標簽處理獲得有效標簽集,將有效標簽集轉(zhuǎn)化成文本,返回為正文,由于在整個處理過程中,僅僅是從html標簽層面處理html源文件,而未借助其他層面的信息,具有很高的通用性,覆蓋面廣,即使網(wǎng)頁結(jié)果復雜,含有多種干擾信息,也能有效的提取網(wǎng)頁的正文部分,針對性強,同時定制性開發(fā)少,可維護性強。圖1為本發(fā)明提取網(wǎng)頁正文內(nèi)容的方法實施例的流程示意圖;圖2為本發(fā)明提取網(wǎng)頁正文內(nèi)容的系統(tǒng)實施例的結(jié)構(gòu)示意圖;圖3為應用本發(fā)明提取網(wǎng)頁正文內(nèi)容前的原始網(wǎng)頁;圖4為應用本發(fā)明提取網(wǎng)頁正文內(nèi)容的結(jié)果示意圖。具體實施例方式下面結(jié)合實施例及附圖對本發(fā)明作進一步闡述,但本發(fā)明的實現(xiàn)方式不限于此。參見圖1所示,為本發(fā)明的提取網(wǎng)頁正文內(nèi)容的方法實施例的流程示意圖。如圖1所示,該實施例中的提取網(wǎng)頁正文內(nèi)容的方法包括如下步驟步驟SlOl:獲取html源文件,并將該html源文件轉(zhuǎn)化為字符流,進入步驟S102;步驟S102:剔除所述字符流中的無效標簽,進入步驟S103;步驟S103:將剩余的標簽轉(zhuǎn)化為標簽樹,并將該標簽樹轉(zhuǎn)換成標簽隊列,進入步驟S104;步驟S104:對所述隊列標簽中的各標簽進行標簽處理獲得有效標簽集,進入步驟S105;步驟S105:根據(jù)所述有效標簽集獲得文本,返回為正文。據(jù)此,依據(jù)本實施例的方案,其是在獲取html源文件,并將該html源文件轉(zhuǎn)化為字符流后,剔除所述字符流中的無效標簽,再將剩余的標簽轉(zhuǎn)化為標簽樹,并將該標簽樹轉(zhuǎn)換成標簽隊列,對所述隊列標簽中的各標簽進行標簽處理直到隊列為空,獲得有效標簽集,將有效標簽集轉(zhuǎn)化成文本,返回為正文,由于本發(fā)明針對所要抽取的網(wǎng)頁正文是從html標簽層面進行處理,從標簽名稱和標簽屬性上判斷標簽的功能,能夠?qū)崿F(xiàn)文本實體的自動處理功能,具有很高的通用性,覆蓋面廣,即使網(wǎng)頁結(jié)構(gòu)復雜,含有多種干擾信息,也能有效的提取網(wǎng)頁的正文部分,針對性強,同時定制性開發(fā)少,可維護性強。下面詳細描述上述各個步驟。首先,在步驟SlOl中,獲取html源文件可以采用現(xiàn)有的方式,在此不予贅述,上述字符流可以是將UTF-8編碼的字符流,UTF-8字符集能存儲絕大多數(shù)網(wǎng)頁的正文編碼,同一的編碼有利于后續(xù)字符流處理程序,但也不限于UTF-8編碼這種編碼方式。接著,在步驟S102中,剔除無效標簽可以包括去除噪聲標記過程,這可以加快后續(xù)進程,進而提高提取網(wǎng)頁正文的效率,包括刪除注釋、腳本以及“head”標簽中的內(nèi)容等噪聲標記,這些噪聲標記是存在于html源文件中,對于網(wǎng)頁正文內(nèi)容提取不但沒有幫助作用,反而會對正文提取造成干擾的噪聲標記塊,例如,用戶開發(fā)者對于網(wǎng)頁源代碼進行注釋的注釋塊(〈!—.*—>),或者用于輔助功能的腳本塊(<(no)script.*</(no)script)等。在其中一個實施例中,剔除無效標簽還可以包括剔除所述字符流中的第一標簽和第二標簽過程;所述第一標簽主要是用于對文本的顯示方式做微幅調(diào)整的標簽,如改變字體、顏色、字號、粗細等等,由于它們的存在與否不改變頁面的布局,一般這些標簽不影響網(wǎng)頁分塊,對提取網(wǎng)頁正文內(nèi)容無幫助,所以一般先將這類標簽去除,第一標簽一般包括"A"、"ABBR"、"ACRONYM"、"AREA"、"B"、"BASE"、"BASEFONT"、"BDO"、BIG"、"Hmr、"πι/7、"OE"、"幌"、"τ'、"r^"、"μ"、"爾"、"H"、"、"ffi"、"κ"、"κ"、"Η6"、"I"、"INS"、"KBD;/、”LABLE"、"SMALL"、”STRIKE"、"STRONG"、"SUB",〃slp〃、〃q〃、〃s〃、〃mp"、〃讀〃、〃mo"、〃mxr、〃imm"、〃u〃、〃π〃、〃var〃、"0:SMARTTAGTYPE";所述第二標簽包括未對網(wǎng)頁布局起幫助作用且從屬于其他標簽的標簽,這類標簽是指從屬于其他類別的標簽,由于它們一般不單獨出現(xiàn),對網(wǎng)頁布局的影響體現(xiàn)在其所從屬的主標簽中,所以為了加快后續(xù)的進程,也可以將這類標簽在刪除無效標簽的過程中就進行刪除,第二標簽一般包括"FRAME"、"INPUT"、"ISINDEX"、"LEGEND"、"UM"、"M\P"、"IVETA"、"CPnCN"、"(PKKIP"、"PAM"、"TD"、"TH"、"IR"、"ΚΣΤ、"ITILE"。再接著,在步驟S103中將剩余的標簽轉(zhuǎn)化為標簽樹,html即超文本標記語言,是標準通用標記語言的一個子集,通過neko或者htmlparser等解析工具可以方便地把html源代碼表示成標記書的形式,這里由于在步驟S102中已刪除了一些無效標簽,則是將剩余標簽轉(zhuǎn)換成標簽樹,并將該標簽樹轉(zhuǎn)換成標簽隊列,轉(zhuǎn)換方式可以是先序遍歷的方式、也可以是后續(xù)遍歷的方式,或者其他方式。由于html是一種格式化的語言,其文本信息需要放在html標簽中,再由標簽提供對信息位置、顯示方式等修飾,上述標簽樹則是由上到下組成的樹狀結(jié)構(gòu),每個節(jié)點對應一個標簽,夾在“>”和“<”之間的文本內(nèi)容為文本節(jié)點,含有文本內(nèi)容最多的文本節(jié)點為最大文本節(jié)點,與從〈title〉標簽中提取出來的內(nèi)容最相似的文本節(jié)點則為標題文本節(jié)點,其中,最大文本節(jié)點的選擇標準可以是含有最多標點符號的文本節(jié)點為最大文本節(jié)點,被計算在內(nèi)的標點符號有[,O;、???!?];標題文本節(jié)點的選擇標準可以是與從標簽〈title〉中提取出來的內(nèi)容在位置O開始匹配的最長文本節(jié)點為標題文本節(jié)點。樹節(jié)點的選擇邏輯如果最大文本節(jié)點和標題文本節(jié)點都存在,則試著從下往上去找最大文本節(jié)點和標題文本節(jié)點的第一個共同的父節(jié)點,如果這個父節(jié)點不是root節(jié)點,則這個父節(jié)點就是所要選擇的節(jié)點。如果除了父節(jié)點之外沒有其他共同的父節(jié)點,則查看包含最大文本節(jié)點的第I級(從下往上)div或table父節(jié)點,如果此div/table父節(jié)點含有的文本的長度超過整個web頁面的文本長度的預設比例(例如30%),則此div/table父節(jié)點就是所要選擇的節(jié)點;如果此div/table父節(jié)點的文本長度不超過整個web頁面text長度的預設比例,則包含標題文本節(jié)點的第2級(從下往上)div/table父節(jié)點就是所要選擇的節(jié)點;如果只有標題文本節(jié)點,則標題文本節(jié)點的第2級(從下往上)div/table父節(jié)點就是所要選擇的節(jié)點。如果只有最大文本節(jié)點,則最大文本節(jié)點的第I級(從下往上)div/table父節(jié)點就是所要選擇的節(jié)點。在步驟S104中,獲得的有效標簽集是指對于網(wǎng)頁正文提取有幫助作用的標簽的集合,對所述隊列標簽中的各標簽進行標簽處理獲得有效標簽集的過程可以是若所述隊列標簽中的標簽為第三標簽或第四標簽,則直接將所述第三標簽或第四標簽保存到有效標簽集,若所述隊列標簽中的標簽為第五標簽,則根據(jù)所述第五標簽對應文本的長度將該第五標簽保存到有效標簽集或者合并到對應的父標簽,若所述隊列標簽中的標簽為所述第三標簽、第四標簽和第五標簽外的其它標簽,則直接合并到對應的父標簽后重新插入所述標簽隊列中。其中,第三標簽是指那些可以直接被認定是一個網(wǎng)頁塊的根標簽,可以直接將其加入網(wǎng)頁塊池,這類標簽主要有"HEAD"、"SCRIPT"、"STYLE"、"OBJECT"、"FIELDSET"、"FRAMESET"、"IFRAME;/;第四標簽是指能夠影響到網(wǎng)頁的顯示效果,改變文字布局,如果一顆html子樹中包括多個第四標簽,則該子樹單獨成塊的可能性增加,這類標簽主要包括〃P"、、〃UL"、〃0L〃、〃DL〃、〃DIR"、〃LI"、〃DT〃、〃BLOCKQUOTE"、〃ADDRESS"、"BR"、"HR"、"COL"、"C0LGR0UP"、"BK"、"MENU"、"SELECT";第五標簽是指那些通常都代表一個網(wǎng)頁塊,只有時在其內(nèi)容過少,需要跟其他節(jié)點合并成一個網(wǎng)頁塊,或者在特殊情況下其內(nèi)部沒有可見字符,因而遇到這種標簽,就需要判斷其單獨作為一個網(wǎng)頁塊的條件是否已成熟,例如判斷文本長度是否達到閾值,若達到則可以認為該標簽單獨作為一個網(wǎng)頁塊的條件已成熟,則可以將其加入網(wǎng)頁塊池,若未達到閾值則可以認為該標簽單獨作為一個網(wǎng)頁塊的條件尚未成熟,需要將其合并到對應的父標簽第五標簽主要包括"DIV"、"TD"、"TABLE"、"FORM"、"FIELDSET"、"CENTER"、"N0FRAMES"、"NOSCRIPT"、"PRE"、"BODY"、"HTML"等,然而,需要注意的是,"BODY"、"HTML"兩個標簽也作為第五標簽,原因是這樣可以防止分塊后網(wǎng)頁內(nèi)部文字的遺漏,這樣的話,即使有遺漏,也會至少包含在"HTML"這個最后把關(guān)的標簽中。由于在不同的應用中,對網(wǎng)頁分塊會有些不同的要求。例如,在進行新聞網(wǎng)頁的數(shù)據(jù)挖掘的工作中,需要使用到網(wǎng)頁分塊,但是對于這類網(wǎng)頁,往往特別需要提取該新聞網(wǎng)頁的發(fā)布日期和時間,而這部分內(nèi)容通常是在新聞標題與新聞正文之間的一小行文字,上述的網(wǎng)頁分塊并不會將其單獨提取成一個網(wǎng)頁塊,這時可以根據(jù)用戶的需要定制一些標簽,具體的步驟可以是接收定制指令;根據(jù)所述定制指令添加與該定制指令相對應的標簽到所述有效標簽集中,該定制指令為添加指令,該添加指令可以是普通的標簽,如“TITLE”等,也可以是正則表達式,凡是其內(nèi)部文字滿足該正則表達式的第三標簽、第四標簽和第五標簽,都將被單獨提取為網(wǎng)頁塊。也可能是在實際情況中,需要特別去掉一些網(wǎng)頁塊,也可以是在上述步驟S104之后,包括步驟接收定制指令,該定制指令是刪除指令,根據(jù)該刪除指令刪除有效標簽集中與該刪除指令對應的標簽。需要說明的是,上述網(wǎng)頁塊池是指那些可以保留不需要進一步處理的html代碼塊,網(wǎng)頁塊池中的網(wǎng)頁塊可以是以QuarkElement的格式存儲,而QuarkElement類中包括原來的html子樹的DomTree結(jié)構(gòu)和其他相關(guān)信息,同時在上述遍歷的過程中,即使有的網(wǎng)頁塊從html結(jié)構(gòu)上來說包含在更高層的網(wǎng)頁塊之下,但在QuarkElement中也消除了包含關(guān)系,所有網(wǎng)頁塊都互相獨立,互不包含。根據(jù)上述本發(fā)明的提取網(wǎng)頁正文內(nèi)容的方法,本發(fā)明還提供一種提取網(wǎng)頁正文內(nèi)容的系統(tǒng),以下就本發(fā)明的提取網(wǎng)頁正文內(nèi)容的系統(tǒng)的具體示例進行詳細說明。圖2中示出了本發(fā)明的提取網(wǎng)頁正文內(nèi)容的系統(tǒng)實施例的結(jié)構(gòu)示意圖。依據(jù)不同的考慮因素,在具體實現(xiàn)本發(fā)明的提取網(wǎng)頁正文內(nèi)容的系統(tǒng)時,可以包含圖2中所示的全部,也可以只包含圖2中所示的其中一部分。首先,以提取網(wǎng)頁正文內(nèi)容的系統(tǒng)包括獲取模塊201、過濾模塊202、標簽樹生成模塊203、遍歷標簽隊列模塊204、正文確定模塊205為例進行說明,其中獲取模塊201,用于獲取html源文件,并將該html源文件轉(zhuǎn)化為字符流,其中,,獲取html源文件可以采用現(xiàn)有的方式,在此不予贅述,上述字符流可以是將UTF-8編碼的字符流,UTF-8字符集能存儲絕大多數(shù)網(wǎng)頁的正文編碼,同一的編碼有利于后續(xù)字符處理程序,但也不限于UTF-8編碼這種編碼方式;過濾模塊202,用于剔除所述字符流中的無效標簽,其中,剔除無效標簽可以包括去除噪聲標記過程,可以加快后續(xù)進程,進而提高提取網(wǎng)頁正文的效率,包括刪除注釋、腳本以及“head”標簽中的內(nèi)容等噪聲標記,這些噪聲標記是存在于html源文件中但又對于網(wǎng)頁正文提取不但沒有幫助作用,反而會對正文提取造成干擾的噪聲標記塊;標簽樹生成模塊203,用于將剩余的標簽轉(zhuǎn)化為標簽樹,并將該標簽樹轉(zhuǎn)換成標簽隊列,其中,將該標簽樹轉(zhuǎn)換成標簽隊列轉(zhuǎn)換方式可以是先序遍歷的方式、也可以是后續(xù)遍歷的方式,或者其他方式;遍歷標簽隊列模塊204,用于對對所述隊列標簽中的各標簽進行處理獲得有效標簽集,其中,獲得的有效標簽集是指對于網(wǎng)頁正文提取有幫助作用標簽的集合;正文確定模塊205,用于將所述有效標簽集轉(zhuǎn)化成文本,返回為正文。據(jù)此,依據(jù)本實施例的方案,其是在獲取模塊201獲取html源文件,并將該html源文件轉(zhuǎn)化為字符流后,過濾模塊202剔除所述字符流中的無效標簽,標簽樹生成模塊203將剩余的標簽轉(zhuǎn)化為標簽樹,并將該標簽樹轉(zhuǎn)換成標簽隊列,遍歷標簽隊列模塊204對所述隊列標簽中的各標簽進行標簽處理直到隊列為空,獲得有效標簽集,正文確定模塊205將有效標簽集轉(zhuǎn)化成文本,返回為正文,由于本發(fā)明針對所要抽取的網(wǎng)頁正文是從html標簽層面進行處理,從標簽名稱和標簽屬性上判斷標簽的功能,能夠?qū)崿F(xiàn)文本實體的自動處理功能,具有很高的通用性,覆蓋面廣,即使網(wǎng)頁結(jié)構(gòu)復雜,含有多種干擾信息,也能有效的提取網(wǎng)頁的正文部分,針對性強,同時定制性開發(fā)少,可維護性強。在其中一個實施例中,所述過濾模塊203可以剔除所述字符流中的第一標簽和第二標簽,所述第一標簽包括用于對文本的顯示方式做微幅調(diào)整的標簽,所述第二標簽包括未對網(wǎng)頁布局起作用且附屬于其他標簽的標簽,其中,第一標簽和第二標簽如上述方法實施例中所述,在此不予贅述。在其中一個實施例中,給出了遍歷標簽隊列模塊204的具體工作方式,遍歷標簽隊列模塊204可以遍歷所述隊列標簽中的各標簽,若所述隊列標簽中的標簽為第三標簽或第四標簽,則直接將所述第三標簽或第四標簽保存到有效標簽集,若所述隊列標簽中的標簽為第五標簽,則根據(jù)所述第五標簽對應文本的長度將該第五標簽保存到有效標簽集或者合并到對應的父標簽,若所述隊列標簽中的標簽為所述第三標簽、第四標簽和第五標簽外的其它標簽,則直接合并到對應的父標簽后重新插入所述標簽隊列中,其中,第三標簽、第四標簽、第五標簽如上述方法實施例中所述,在此不予贅述。由于在不同的應用中,對網(wǎng)頁分塊會有些不同的要求。例如,在進行新聞網(wǎng)頁的數(shù)據(jù)挖掘的工作中,需要使用到網(wǎng)頁分塊,但是對于這類網(wǎng)頁,往往特別需要提取該新聞網(wǎng)頁的發(fā)布日期和時間,而這部分內(nèi)容通常是在新聞標題與新聞正文之間的一小行文字,上述的網(wǎng)頁分塊并不會將其單獨提取成一個網(wǎng)頁塊,這時可以根據(jù)用戶的需要定制一些標簽,為此,在其中一個實施例中,本發(fā)明的的提取網(wǎng)頁正文內(nèi)容的系統(tǒng),還可以包括連接在所述遍歷標簽隊列模塊和所述正文確定模塊之間的定制模塊206,該定制模塊206包括添加單元2061,用于接收添加指令,根據(jù)所述添加指令添加與該添加指令相對應的標簽到所述有效標簽集中。也可能是在實際情況中,需要特別去掉一些網(wǎng)頁塊,為此,在其中一個實施例中,本發(fā)明的提取網(wǎng)頁正文內(nèi)容的系統(tǒng),也可以包括連接在所述遍歷標簽隊列模塊和所述正文確定模塊之間的定制模塊206,該定制模塊206包括刪除單元2062,刪除單元2062用于接收刪除指令,根據(jù)所述刪除指令刪除所述有效標簽集中與該刪除指令相對應的標簽。應用本發(fā)明對如圖3所示的原始網(wǎng)頁進行網(wǎng)頁正文提取,提取結(jié)果如圖4所示,有圖4可見,經(jīng)過處理后,網(wǎng)頁的引導頁、導航欄、廣告欄、推薦信息都被全部過濾了,但是包括標題、小標題、作者、新聞內(nèi)容等正文信息都被完整保留了,本發(fā)明可以達到很好的提取效果,同時,提取效率較傳統(tǒng)方式有顯著提高。以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對本發(fā)明專利范圍的限制。應當指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應以所附權(quán)利要求為準。權(quán)利要求1.一種提取網(wǎng)頁正文內(nèi)容的方法,其特征在于,包括如下步驟獲取html源文件,并將該html源文件轉(zhuǎn)化為字符流;剔除所述字符流中的無效標簽;將剩余的標簽轉(zhuǎn)化為標簽樹,并將該標簽樹轉(zhuǎn)換成標簽隊列;對所述隊列標簽中的各標簽進行處理獲得有效標簽集;將所述有效標簽集轉(zhuǎn)化成文本,返回為正文。2.根據(jù)權(quán)利要求1所述的提取網(wǎng)頁正文內(nèi)容的方法,其特征在于,所述剔除所述字符流中的無效標簽包括步驟剔除所述字符流中的第一標簽和第二標簽,所述第一標簽包括用于對文本的顯示方式做微幅調(diào)整的標簽,所述第二標簽包括未對網(wǎng)頁布局起作用且附屬于其他標簽的標簽。3.根據(jù)權(quán)利要求1所述的提取網(wǎng)頁正文內(nèi)容的方法,其特征在于,所述對所述隊列標簽中的各標簽進行處理獲得有效標簽集包括步驟遍歷所述隊列標簽中的各標簽,若所述隊列標簽中的標簽為第三標簽或第四標簽,則直接將所述第三標簽或第四標簽保存到有效標簽集,若所述隊列標簽中的標簽為第五標簽,則根據(jù)所述第五標簽對應文本的長度將該第五標簽保存到有效標簽集或者合并到對應的父標簽,若所述隊列標簽中的標簽為所述第三標簽、第四標簽和第五標簽外的其它標簽,則直接合并到對應的父標簽后重新插入所述標簽隊列中。4.根據(jù)權(quán)利要求3所述的提取網(wǎng)頁正文內(nèi)容的方法,其特征在于,所述對所述隊列標簽中的各標簽進行處理獲得有效標簽集還包括步驟接收定制指令,該定制指令為添加指令;根據(jù)所述添加指令添加與該添加指令相對應的標簽到所述有效標簽集中。5.根據(jù)權(quán)利要求1所述的提取網(wǎng)頁正文內(nèi)容的方法,其特征在于,在所述對所述隊列標簽中的各標簽進行處理獲得有效標簽集后,所述將有效標簽集轉(zhuǎn)化成文本,返回為正文步驟前還包括步驟接收定制指令,該定制指令為刪除指令;根據(jù)所述刪除指令刪除所述有效標簽集中與該刪除指令相對應的標簽。6.一種提取網(wǎng)頁正文內(nèi)容的系統(tǒng),其特征在于,包括獲取模塊,用于獲取html源文件,并將該html源文件轉(zhuǎn)化為字符流;過濾模塊,用于剔除所述字符流中的無效標簽;標簽樹生成模塊,用于將剩余的標簽轉(zhuǎn)化為標簽樹,并將該標簽樹轉(zhuǎn)換成標簽隊列;遍歷標簽隊列模塊,用于對對所述隊列標簽中的各標簽進行處理獲得有效標簽集;正文確定模塊,用于將所述有效標簽集轉(zhuǎn)化成文本,返回為正文。7.根據(jù)權(quán)利要求6所述的提取網(wǎng)頁正文內(nèi)容的系統(tǒng),其特征在于,所述過濾模塊剔除所述字符流中的第一標簽和第二標簽,所述第一標簽包括用于對文本的顯示方式做微幅調(diào)整的標簽,所述第二標簽包括未對網(wǎng)頁布局起作用且附屬于其他標簽的標簽。8.根據(jù)權(quán)利要求6所述的提取網(wǎng)頁正文內(nèi)容的系統(tǒng),其特征在于,所述遍歷標簽隊列模塊遍歷所述隊列標簽中的各標簽,若所述隊列標簽中的標簽為第三標簽或第四標簽,則直接將所述第三標簽或第四標簽保存到有效標簽集,若所述隊列標簽中的標簽為第五標簽,則根據(jù)所述第五標簽對應文本的長度將該第五標簽保存到有效標簽集或者合并到對應的父標簽,若所述隊列標簽中的標簽為所述第三標簽、第四標簽和第五標簽外的其它標簽,則直接合并到對應的父標簽后重新插入所述標簽隊列中。9.根據(jù)權(quán)利要求6所述的提取網(wǎng)頁正文內(nèi)容的系統(tǒng),其特征在于,還包括連接在所述遍歷標簽隊列模塊和所述正文確定模塊之間的定制模塊,該定制模塊包括添加單元,用于接收添加指令,根據(jù)所述添加指令添加與該添加指令相對應的標簽到所述有效標簽集中。10.根據(jù)權(quán)利要求6或9所述的提取網(wǎng)頁正文內(nèi)容的系統(tǒng),其特征在于,還包括連接在所述遍歷標簽隊列模塊和所述正文確定模塊之間的定制模塊,該定制模塊包括刪除單元,用于接收刪除指令,根據(jù)所述刪除指令刪除所述有效標簽集中與該刪除指令相對應的標簽。全文摘要本發(fā)明提供一種提取網(wǎng)頁正文內(nèi)容的方法和系統(tǒng),其方法包括步驟獲取html源文件,并將該html源文件轉(zhuǎn)化為字符流;剔除所述字符流中的無效標簽;將剩余的標簽轉(zhuǎn)化為標簽樹,并將該標簽樹轉(zhuǎn)換成標簽隊列;對所述隊列標簽中的各標簽進行處理獲得有效標簽集;將所述有效標簽集轉(zhuǎn)化成文本,返回為正文。本發(fā)明具有很高的通用性,覆蓋面廣,即使網(wǎng)頁結(jié)果復雜,含有多種干擾信息,也能有效的提取網(wǎng)頁的正文部分,針對性強,同時定制性開發(fā)少,可維護性強。文檔編號G06F17/30GK103049536SQ20121057019公開日2013年4月17日申請日期2012年12月25日優(yōu)先權(quán)日2012年11月1日發(fā)明者王海山申請人:廣州匯訊營銷咨詢有限公司