網(wǎng)頁內(nèi)容提取方法及裝置的制造方法【專利摘要】本發(fā)明公開了一種網(wǎng)頁內(nèi)容提取方法,包括以下步驟:S1、獲取目標(biāo)網(wǎng)頁;S2、判斷所述目標(biāo)網(wǎng)頁中是否存在超鏈接;S3、若是,則獲取所述超鏈接所對應(yīng)的子目標(biāo)網(wǎng)頁,并以所述子目標(biāo)網(wǎng)頁作為下一目標(biāo)網(wǎng)頁,返回執(zhí)行S2,直到滿足預(yù)置退出條件時退出;S4、根據(jù)設(shè)定的內(nèi)容采集規(guī)則,遍歷所述目標(biāo)網(wǎng)頁與所述子目標(biāo)網(wǎng)頁所對應(yīng)的源代碼,并從所述源代碼中提取滿足所述內(nèi)容采集規(guī)則的網(wǎng)頁內(nèi)容。本發(fā)明還公開了一種網(wǎng)頁內(nèi)容提取裝置。本發(fā)明能夠精確獲得目標(biāo)網(wǎng)頁上用戶所需內(nèi)容,減少用戶查找網(wǎng)頁內(nèi)容的時間消耗,提高信息獲取效率?!緦@f明】網(wǎng)頁內(nèi)容提取方法及裝置
技術(shù)領(lǐng)域:
[0001]本發(fā)明涉及通信
技術(shù)領(lǐng)域:
,尤其涉及網(wǎng)頁內(nèi)容提取方法及裝置?!?br>背景技術(shù):
】[0002]隨著現(xiàn)今大數(shù)據(jù)時代的到來,用戶需要從海量的網(wǎng)絡(luò)資源中獲取所需信息并不是十分容易,盡管搜索引擎實(shí)現(xiàn)了對海量網(wǎng)絡(luò)資源的搜索與提取,但搜索結(jié)果仍然巨大,從而導(dǎo)致用戶需要花費(fèi)更多的時間與精力去進(jìn)行篩選所需信息。如果用戶搜索目標(biāo)比較明確,比如集中在某一個或少數(shù)幾個網(wǎng)站,盡管該類情形下需要查找篩選的數(shù)據(jù)并不多,但用戶在網(wǎng)頁上通過手動采集數(shù)據(jù)則仍然比較費(fèi)時,數(shù)據(jù)提取效率依舊不高?!?br/>發(fā)明內(nèi)容】[0003]本發(fā)明的主要目的在于提供一種網(wǎng)頁內(nèi)容提取方法及裝置,旨在解決如何在保證網(wǎng)頁內(nèi)容提取準(zhǔn)確的同時,提高網(wǎng)頁內(nèi)容提取效率的技術(shù)問題。[0004]為實(shí)現(xiàn)上述目的,本發(fā)明一種網(wǎng)頁內(nèi)容提取方法,所述網(wǎng)頁內(nèi)容提取方法包括以下步驟:[0005]S1、獲取目標(biāo)網(wǎng)頁;[0006]S2、判斷所述目標(biāo)網(wǎng)頁中是否存在超鏈接;[0007]S3、若是,則獲取所述超鏈接所對應(yīng)的子目標(biāo)網(wǎng)頁,并以所述子目標(biāo)網(wǎng)頁作為下一目標(biāo)網(wǎng)頁,返回執(zhí)行S2,直到滿足預(yù)置退出條件時退出;[0008]S4、根據(jù)設(shè)定的內(nèi)容采集規(guī)則,遍歷所述目標(biāo)網(wǎng)頁與所述子目標(biāo)網(wǎng)頁所對應(yīng)的源代碼,并從所述源代碼中提取滿足所述內(nèi)容采集規(guī)則的網(wǎng)頁內(nèi)容。[0009]優(yōu)選地,所述內(nèi)容采集規(guī)則至少包括目標(biāo)內(nèi)容所對應(yīng)的HTML標(biāo)簽類型、目標(biāo)內(nèi)容所包含的字符或字符串、目標(biāo)內(nèi)容的正則表達(dá)式中的一種或多種。[0010]優(yōu)選地,所述根據(jù)設(shè)定的內(nèi)容采集規(guī)則,遍歷所述目標(biāo)網(wǎng)頁與所述子目標(biāo)網(wǎng)頁所對應(yīng)的源代碼,并從所述源代碼中提取滿足所述內(nèi)容采集規(guī)則的網(wǎng)頁內(nèi)容之后包括:[0011]根據(jù)預(yù)置的數(shù)據(jù)處理規(guī)則,對所述網(wǎng)頁內(nèi)容進(jìn)行對應(yīng)的數(shù)據(jù)處理,其中,所述數(shù)據(jù)處理至少包括標(biāo)簽過濾處理、數(shù)據(jù)格式轉(zhuǎn)換、下載文件探測中的一種或多種。[0012]優(yōu)選地,所述根據(jù)設(shè)定的內(nèi)容采集規(guī)則,遍歷所述目標(biāo)網(wǎng)頁與所述子目標(biāo)網(wǎng)頁所對應(yīng)的源代碼,并從所述源代碼中提取滿足所述內(nèi)容采集規(guī)則的網(wǎng)頁內(nèi)容之后還包括:[0013]根據(jù)所述網(wǎng)頁內(nèi)容所對應(yīng)的HTML標(biāo)簽類型及預(yù)置的XML文件生成格式,采用可擴(kuò)展標(biāo)記語言XML對所述網(wǎng)頁內(nèi)容進(jìn)行結(jié)構(gòu)化描述,得到對應(yīng)的XML文件;[0014]編譯所述XML文件,并顯示編譯后所生成的包含有所述網(wǎng)頁內(nèi)容的頁面。[0015]優(yōu)選地,所述網(wǎng)頁內(nèi)容提取方法還包括:[0016]在獲取所述目標(biāo)網(wǎng)頁或所述子目標(biāo)網(wǎng)頁失敗時,通過HTTP二級代理服務(wù)器進(jìn)行IP地址替換,并以新的IP地址重新獲取所述目標(biāo)網(wǎng)頁或所述子目標(biāo)網(wǎng)頁。[0017]進(jìn)一步地,為實(shí)現(xiàn)上述目的,本發(fā)明還提供一種網(wǎng)頁內(nèi)容提取裝置,所述網(wǎng)頁內(nèi)容提取裝置包括:[0018]第一獲取模塊,用于獲取目標(biāo)網(wǎng)頁;[0019]判斷模塊,用于判斷所述目標(biāo)網(wǎng)頁中是否存在超鏈接;[0020]第二獲取模塊,用于若所述目標(biāo)網(wǎng)頁中存在超鏈接,則獲取所述超鏈接所對應(yīng)的子目標(biāo)網(wǎng)頁,并以所述子目標(biāo)網(wǎng)頁作為下一目標(biāo)網(wǎng)頁,返回執(zhí)行所述判斷模塊,直到滿足預(yù)置退出條件時退出;[0021]提取模塊,用于根據(jù)設(shè)定的內(nèi)容采集規(guī)則,遍歷所述目標(biāo)網(wǎng)頁與所述子目標(biāo)網(wǎng)頁所對應(yīng)的源代碼,并從所述源代碼中提取滿足所述內(nèi)容采集規(guī)則的網(wǎng)頁內(nèi)容。[0022]優(yōu)選地,所述內(nèi)容采集規(guī)則至少包括目標(biāo)內(nèi)容所對應(yīng)的HTML標(biāo)簽類型、目標(biāo)內(nèi)容所包含的字符或字符串、目標(biāo)內(nèi)容的正則表達(dá)式中的一種或多種。[0023]優(yōu)選地,所述網(wǎng)頁內(nèi)容提取裝置還包括:[0024]數(shù)據(jù)處理模塊,用于根據(jù)預(yù)置的數(shù)據(jù)處理規(guī)則,對所述網(wǎng)頁內(nèi)容進(jìn)行對應(yīng)的數(shù)據(jù)處理,其中,所述數(shù)據(jù)處理至少包括標(biāo)簽過濾處理、數(shù)據(jù)格式轉(zhuǎn)換、下載文件探測中的一種或多種。[0025]優(yōu)選地,所述網(wǎng)頁內(nèi)容提取裝置還包括:[0026]結(jié)構(gòu)化描述模塊,用于根據(jù)所述網(wǎng)頁內(nèi)容所對應(yīng)的HTML標(biāo)簽類型及預(yù)置的XML文件生成格式,采用可擴(kuò)展標(biāo)記語言XML對所述網(wǎng)頁內(nèi)容進(jìn)行結(jié)構(gòu)化描述,得到對應(yīng)的XML文件;[0027]編譯模塊,用于編譯所述XML文件,并顯示編譯后所生成的包含有所述網(wǎng)頁內(nèi)容的頁面。[0028]優(yōu)選地,所述網(wǎng)頁內(nèi)容提取裝置還包括:[0029]地址替換模塊,用于在獲取所述目標(biāo)網(wǎng)頁或所述子目標(biāo)網(wǎng)頁失敗時,通過HTTP二級代理服務(wù)器進(jìn)行IP地址替換,并以新的IP地址重新獲取所述目標(biāo)網(wǎng)頁或所述子目標(biāo)網(wǎng)頁。[0030]本發(fā)明中,通過獲取目標(biāo)網(wǎng)頁以及各級子目標(biāo)網(wǎng)頁,并通過預(yù)先設(shè)定的內(nèi)容采集規(guī)則,對網(wǎng)頁內(nèi)容做進(jìn)一步的提取,從而精確獲得用戶所需內(nèi)容,減少用戶查找網(wǎng)頁內(nèi)容的時I司消耗,提尚?目息獲取效率?!靖綀D說明】[0031]圖1為本發(fā)明網(wǎng)頁內(nèi)容提取方法第一實(shí)施例的流程示意圖;[0032]圖2為本發(fā)明網(wǎng)頁內(nèi)容提取方法第二實(shí)施例的流程示意圖;[0033]圖3為本發(fā)明網(wǎng)頁內(nèi)容提取方法第三實(shí)施例的流程示意圖;[0034]圖4為本發(fā)明網(wǎng)頁內(nèi)容提取裝置第一實(shí)施例的功能模塊示意圖;[0035]圖5為本發(fā)明網(wǎng)頁內(nèi)容提取裝置第二實(shí)施例的功能模塊示意圖;[0036]圖6為本發(fā)明網(wǎng)頁內(nèi)容提取裝置第三實(shí)施例的功能模塊示意圖;[0037]圖7為本發(fā)明網(wǎng)頁內(nèi)容提取裝置第四實(shí)施例的功能模塊示意圖。[0038]本發(fā)明目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例,參照附圖做進(jìn)一步說明?!揪唧w實(shí)施方式】[0039]應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。[0040]參照圖1,圖1為本發(fā)明網(wǎng)頁內(nèi)容提取方法第一實(shí)施例的流程示意圖。本實(shí)施例中,所述網(wǎng)頁內(nèi)容提取方法包括:[0041]步驟SI,獲取目標(biāo)網(wǎng)頁;[0042]本實(shí)施例中,目標(biāo)網(wǎng)頁或子目標(biāo)網(wǎng)頁具體是指HTML格式文件,也即未被編譯的網(wǎng)頁。在獲取目標(biāo)網(wǎng)頁之前,網(wǎng)頁內(nèi)容提取裝置預(yù)先設(shè)置目標(biāo)網(wǎng)頁所對應(yīng)的URL,并發(fā)送至對應(yīng)的服務(wù)器,從而獲得服務(wù)器所返回的HTML格式的網(wǎng)頁。此外,本實(shí)施例中的目標(biāo)網(wǎng)頁可以是任意的網(wǎng)頁,比如網(wǎng)站的主網(wǎng)頁,或者主網(wǎng)頁下的其他分級網(wǎng)頁。[0043]步驟S2,判斷所述目標(biāo)網(wǎng)頁中是否存在超鏈接;[0044]通常,為更好布局網(wǎng)頁內(nèi)容顯示,網(wǎng)頁編輯人員都會在網(wǎng)頁中設(shè)置多個超鏈接,從而可以更為簡潔方便地完成網(wǎng)頁內(nèi)容的布局,因此,一個網(wǎng)頁所包含的內(nèi)容不僅包含當(dāng)前一級的網(wǎng)頁內(nèi)容,還包含下一級的網(wǎng)頁內(nèi)容,具體通過超鏈接的方式打開下一級的網(wǎng)頁。因此,本實(shí)施例中,需要進(jìn)一步判斷當(dāng)前目標(biāo)網(wǎng)頁上是否存在打開下一級網(wǎng)頁的超鏈接。[0045]步驟S3,若是,則獲取所述超鏈接所對應(yīng)的子目標(biāo)網(wǎng)頁,并以所述子目標(biāo)網(wǎng)頁作為下一目標(biāo)網(wǎng)頁,返回執(zhí)行S2,直到滿足預(yù)置退出條件時退出;[0046]本實(shí)施例中,通過循環(huán)遞歸的方式,獲取目標(biāo)網(wǎng)頁下的所有各級子目標(biāo)網(wǎng)頁,從而最大限度地擴(kuò)大網(wǎng)頁內(nèi)容的提取范圍。當(dāng)然,考慮到可能每一個子目標(biāo)網(wǎng)頁都有可能存在超鏈接的情形,因此,本實(shí)施例中需要設(shè)置相應(yīng)的退出條件,例如設(shè)置循環(huán)遞歸的次數(shù),比如達(dá)到兩次時即退出等。[0047]步驟S4,根據(jù)設(shè)定的內(nèi)容采集規(guī)則,遍歷所述目標(biāo)網(wǎng)頁與所述子目標(biāo)網(wǎng)頁所對應(yīng)的源代碼,并從所述源代碼中提取滿足所述內(nèi)容采集規(guī)則的網(wǎng)頁內(nèi)容。[0048]本實(shí)施例中,對于內(nèi)容采集規(guī)則設(shè)定不限,可選的,所述內(nèi)容采集規(guī)則至少包括目標(biāo)內(nèi)容所對應(yīng)的HTML標(biāo)簽類型、目標(biāo)內(nèi)容所包含的字符或字符串、目標(biāo)內(nèi)容的正則表達(dá)式中的一種或多種中的一種或多種。[0049]例如,<img>標(biāo)簽定義圖片,〈video〉標(biāo)簽定義視頻,〈table〉定義表格等,也即獲取目標(biāo)網(wǎng)頁或子目標(biāo)中對應(yīng)的圖片、視頻、表格等內(nèi)容。[0050]例如,以關(guān)鍵字或關(guān)鍵詞作為采集規(guī)則,例如關(guān)鍵詞為“ABC”,則遍歷網(wǎng)頁源代碼,提取關(guān)鍵詞“ABC1。[0051]或者例如,也可以設(shè)置目標(biāo)內(nèi)容的正則表達(dá)式(正則表達(dá)式使用單個字符串來描述、匹配一系列符合某個句法規(guī)則的字符串),正則表達(dá)式由一些普通字符和一些元字符組成。普通字符包括大小寫的字母和數(shù)字,而元字符則具有特殊的含義,例如元字符“+”用于匹配I個或多個正好在它之前的那個字符,例如正則表達(dá)式9+匹配9、99、999等。[0052]本實(shí)施例中,獲取目標(biāo)網(wǎng)頁以及各級子目標(biāo)網(wǎng)頁,并通過預(yù)先設(shè)定的內(nèi)容采集規(guī)貝1J,對網(wǎng)頁內(nèi)容做進(jìn)一步的提取,從而精確獲得用戶所需內(nèi)容,減少用戶查找網(wǎng)頁內(nèi)容的時I司消耗,提尚?目息獲取效率。[0053]參照圖2,圖2為本發(fā)明網(wǎng)頁內(nèi)容提取方法第二實(shí)施例的流程示意圖?;谏鲜龇椒ǖ谝粚?shí)施例,本實(shí)施例中,上述步驟S4之后包括:[0054]步驟S5,根據(jù)預(yù)置的數(shù)據(jù)處理規(guī)則,對所述網(wǎng)頁內(nèi)容進(jìn)行對應(yīng)的數(shù)據(jù)處理,其中,所述數(shù)據(jù)處理至少包括標(biāo)簽過濾處理、數(shù)據(jù)格式轉(zhuǎn)換、下載文件探測中的一種或多種。[0055]本實(shí)施例中,在提取網(wǎng)頁內(nèi)容的同時,為便于用戶理解和閱讀,需要進(jìn)一步對提取的網(wǎng)頁內(nèi)容進(jìn)行數(shù)據(jù)處理,同時,本實(shí)施例中,對于數(shù)據(jù)處理規(guī)則不限,具體根據(jù)實(shí)際需要進(jìn)行設(shè)置。[0056]例如,進(jìn)行標(biāo)簽過濾處理。由于網(wǎng)頁源代碼的生成格式的多樣性,提取的網(wǎng)頁中可能會存在某些無關(guān)的標(biāo)簽,比如空格標(biāo)簽、字體大小顏色標(biāo)簽等,因此,為便于用戶后續(xù)閱讀,需要對標(biāo)簽進(jìn)行過濾。通常標(biāo)簽的格式為:〈>,因此可根據(jù)標(biāo)簽的格式進(jìn)行標(biāo)簽過濾處理。[0057]例如進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換。比如字體格式(顏色、大小)轉(zhuǎn)換、繁體簡體字轉(zhuǎn)換、中英文轉(zhuǎn)換、時間格式轉(zhuǎn)換等。[0058]例如進(jìn)行下載文件的探測。比如,某些超鏈接實(shí)際為下載文件的超鏈接,對于此類下載文件的超鏈接,可以保留,以供用戶自己根據(jù)實(shí)際需要進(jìn)行處理。[0059]本實(shí)施例中,通過對提取的網(wǎng)頁內(nèi)容進(jìn)行數(shù)據(jù)處理,從而使處理后的網(wǎng)頁內(nèi)容更符合用戶的使用或閱讀需求,提升用戶使用體驗(yàn)。[0060]參照圖3,圖3為本發(fā)明網(wǎng)頁內(nèi)容提取方法第三實(shí)施例的流程示意圖?;谏鲜龇椒ǖ谝粚?shí)施例,本實(shí)施例中,上述步驟S4之后還包括:[0061]步驟S61,根據(jù)所述網(wǎng)頁內(nèi)容所對應(yīng)的HTML標(biāo)簽類型及預(yù)置的XML文件生成格式,采用可擴(kuò)展標(biāo)記語言XML對所述網(wǎng)頁內(nèi)容進(jìn)行結(jié)構(gòu)化描述,得到對應(yīng)的XML文件;[0062]步驟S62,編譯所述XML文件,并顯示編譯后所生成的包含有所述網(wǎng)頁內(nèi)容的頁面。[0063]由于是從目標(biāo)網(wǎng)頁的源代碼中提取的網(wǎng)頁內(nèi)容,因此并不適合直接顯示給用戶。本實(shí)施例中,需要進(jìn)一步對網(wǎng)頁進(jìn)行顯示處理,具體采用可擴(kuò)展標(biāo)記語言XML對提取的網(wǎng)頁內(nèi)容進(jìn)行結(jié)構(gòu)化描述,從而得到對應(yīng)的XML文件,然后再編譯XML文件,即可得到主要為所提取的網(wǎng)頁內(nèi)容的以供顯示給用戶的新網(wǎng)頁。[0064]當(dāng)然,基于用戶閱讀要求,比如新網(wǎng)頁的布局(內(nèi)容對應(yīng)為提取到的網(wǎng)頁內(nèi)容),因此,根據(jù)提取的網(wǎng)頁內(nèi)容所對應(yīng)的HTML標(biāo)簽類型及預(yù)置的XML文件生成格式,來進(jìn)行新網(wǎng)頁的網(wǎng)頁格式布局,提升用戶閱讀體驗(yàn)。[0065]進(jìn)一步地,在本發(fā)明網(wǎng)頁內(nèi)容提取方法一實(shí)施例中,網(wǎng)頁內(nèi)容提取方法還包括:在獲取所述目標(biāo)網(wǎng)頁或所述子目標(biāo)網(wǎng)頁失敗時,通過HTTP二級代理服務(wù)器進(jìn)行IP地址替換,并以新的IP地址重新獲取所述目標(biāo)網(wǎng)頁或所述子目標(biāo)網(wǎng)頁。[0066]通常,基于網(wǎng)站安全等因素的考慮,網(wǎng)站服務(wù)器都會限制同一IP的訪問次數(shù),因此,本實(shí)施例中,為避免導(dǎo)致訪問IP地址被限制,因此,獲取目標(biāo)網(wǎng)頁或子目標(biāo)網(wǎng)頁失敗時,通過HTTP二級代理服務(wù)器進(jìn)行IP地址替換,并以新的IP地址重新獲取目標(biāo)網(wǎng)頁或子目標(biāo)網(wǎng)頁,從而得以繼續(xù)進(jìn)行目標(biāo)網(wǎng)頁的獲取以及網(wǎng)頁內(nèi)容的提取。[0067]參照圖4,圖4為本發(fā)明網(wǎng)頁內(nèi)容提取裝置第一實(shí)施例的功能模塊示意圖。本實(shí)施例中,所述網(wǎng)頁內(nèi)容提取裝置包括:[0068]第一獲取模塊10,用于獲取目標(biāo)網(wǎng)頁;[0069]本實(shí)施例中,目標(biāo)網(wǎng)頁或子目標(biāo)網(wǎng)頁具體是指HTML格式文件,也即未被編譯的網(wǎng)頁。在獲取目標(biāo)網(wǎng)頁之前,網(wǎng)頁內(nèi)容提取裝置預(yù)先設(shè)置目標(biāo)網(wǎng)頁所對應(yīng)的URL,并發(fā)送至對應(yīng)的服務(wù)器,從而獲得服務(wù)器所返回的HTML格式的網(wǎng)頁。此外,本實(shí)施例中的目標(biāo)網(wǎng)頁可以是任意的網(wǎng)頁,比如網(wǎng)站的主網(wǎng)頁,或者主網(wǎng)頁下的其他分級網(wǎng)頁。[0070]判斷模塊20,用于判斷所述目標(biāo)網(wǎng)頁中是否存在超鏈接;[0071]通常,為更好布局網(wǎng)頁內(nèi)容顯示,網(wǎng)頁編輯人員都會在網(wǎng)頁中設(shè)置多個超鏈接,從而可以更為簡潔方便地完成網(wǎng)頁內(nèi)容的布局,因此,一個網(wǎng)頁所包含的內(nèi)容不僅包含當(dāng)前一級的網(wǎng)頁內(nèi)容,還包含下一級的網(wǎng)頁內(nèi)容,具體通過超鏈接的方式打開下一級的網(wǎng)頁。因此,本實(shí)施例中,需要進(jìn)一步判斷當(dāng)前目標(biāo)網(wǎng)頁上是否存在打開下一級網(wǎng)頁的超鏈接。[0072]第二獲取模塊30,用于若所述目標(biāo)網(wǎng)頁中存在超鏈接,則獲取所述超鏈接所對應(yīng)的子目標(biāo)網(wǎng)頁,并以所述子目標(biāo)網(wǎng)頁作為下一目標(biāo)網(wǎng)頁,返回執(zhí)行所述判斷模塊;[0073]本實(shí)施例中,通過循環(huán)遞歸的方式,獲取目標(biāo)網(wǎng)頁下的所有各級子目標(biāo)網(wǎng)頁,從而最大限度地擴(kuò)大網(wǎng)頁內(nèi)容的提取范圍。當(dāng)然,考慮到可能每一個子目標(biāo)網(wǎng)頁都有可能存在超鏈接的情形,因此,本實(shí)施例中需要設(shè)置相應(yīng)的退出條件,例如設(shè)置循環(huán)遞歸的次數(shù),比如達(dá)到兩次時即退出等。[0074]提取模塊40,用于根據(jù)設(shè)定的內(nèi)容采集規(guī)則,遍歷所述目標(biāo)網(wǎng)頁與所述子目標(biāo)網(wǎng)頁所對應(yīng)的源代碼,并從所述源代碼中提取滿足所述內(nèi)容采集規(guī)則的網(wǎng)頁內(nèi)容。[0075]本實(shí)施例中,對于內(nèi)容采集規(guī)則設(shè)定不限,可選的,所述內(nèi)容采集規(guī)則至少包括目標(biāo)內(nèi)容所對應(yīng)的HTML標(biāo)簽類型、目標(biāo)內(nèi)容所包含的字符或字符串、目標(biāo)內(nèi)容的正則表達(dá)式中的一種或多種中的一種或多種。[0076]例如,<img>標(biāo)簽定義圖片,〈video〉標(biāo)簽定義視頻,〈table〉定義表格等,也即獲取目標(biāo)網(wǎng)頁或子目標(biāo)中對應(yīng)的圖片、視頻、表格等內(nèi)容。[0077]例如,以關(guān)鍵字或關(guān)鍵詞作為采集規(guī)則,例如關(guān)鍵詞為“ABC”,則遍歷網(wǎng)頁源代碼,提取關(guān)鍵詞“ABC1。[0078]或者例如,也可以設(shè)置目標(biāo)內(nèi)容的正則表達(dá)式(正則表達(dá)式使用單個字符串來描述、匹配一系列符合某個句法規(guī)則的字符串),正則表達(dá)式由一些普通字符和一些元字符組成。普通字符包括大小寫的字母和數(shù)字,而元字符則具有特殊的含義,例如元字符“+”用于匹配I個或多個正好在它之前的那個字符,例如正則表達(dá)式9+匹配9、99、999等。[0079]本實(shí)施例中,獲取目標(biāo)網(wǎng)頁以及各級子目標(biāo)網(wǎng)頁,并通過預(yù)先設(shè)定的內(nèi)容采集規(guī)貝1J,對網(wǎng)頁內(nèi)容做進(jìn)一步的提取,從而精確獲得用戶所需內(nèi)容,減少用戶查找網(wǎng)頁內(nèi)容的時I司消耗,提尚?目息獲取效率。[0080]參照圖5,圖5為本發(fā)明網(wǎng)頁內(nèi)容提取裝置第二實(shí)施例的功能模塊示意圖。基于上述裝置第一實(shí)施例,本實(shí)施例中,所述網(wǎng)頁內(nèi)容提取裝置還包括:[0081]數(shù)據(jù)處理模塊50,用于根據(jù)預(yù)置的數(shù)據(jù)處理規(guī)則,對所述網(wǎng)頁內(nèi)容進(jìn)行對應(yīng)的數(shù)據(jù)處理,其中,所述數(shù)據(jù)處理至少包括標(biāo)簽過濾處理、數(shù)據(jù)格式轉(zhuǎn)換、下載文件探測中的一種或多種。[0082]本實(shí)施例中,在提取網(wǎng)頁內(nèi)容的同時,為便于用戶理解和閱讀,需要進(jìn)一步對提取的網(wǎng)頁內(nèi)容進(jìn)行數(shù)據(jù)處理,同時,本實(shí)施例中,對于數(shù)據(jù)處理規(guī)則不限,具體根據(jù)實(shí)際需要進(jìn)行設(shè)置。[0083]例如,進(jìn)行標(biāo)簽過濾處理。由于網(wǎng)頁源代碼的生成格式的多樣性,提取的網(wǎng)頁中可能會存在某些無關(guān)的標(biāo)簽,比如空格標(biāo)簽、字體大小顏色標(biāo)簽等,因此,為便于用戶后續(xù)閱讀,需要對標(biāo)簽進(jìn)行過濾。通常標(biāo)簽的格式為:〈>,因此可根據(jù)標(biāo)簽的格式進(jìn)行標(biāo)簽過濾處理。[0084]例如進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換。比如字體格式(顏色、大小)轉(zhuǎn)換、繁體簡體字轉(zhuǎn)換、中英文轉(zhuǎn)換、時間格式轉(zhuǎn)換等。[0085]例如進(jìn)行下載文件的探測。比如,某些超鏈接實(shí)際為下載文件的超鏈接,對于此類下載文件的超鏈接,可以保留,以供用戶自己根據(jù)實(shí)際需要進(jìn)行處理。[0086]本實(shí)施例中,通過對提取的網(wǎng)頁內(nèi)容進(jìn)行數(shù)據(jù)處理,從而使處理后的網(wǎng)頁內(nèi)容更符合用戶的使用或閱讀需求,提升用戶使用體驗(yàn)。[0087]參照圖6,圖6為本發(fā)明網(wǎng)頁內(nèi)容提取裝置第三實(shí)施例的功能模塊示意圖。基于上述裝置第一實(shí)施例,本實(shí)施例中,所述網(wǎng)頁內(nèi)容提取裝置還包括:[0088]結(jié)構(gòu)化描述模塊60,用于根據(jù)所述網(wǎng)頁內(nèi)容所對應(yīng)的HTML標(biāo)簽類型及預(yù)置的XML文件生成格式,采用可擴(kuò)展標(biāo)記語言XML對所述網(wǎng)頁內(nèi)容進(jìn)行結(jié)構(gòu)化描述,得到對應(yīng)的XML文件;[0089]編譯模塊70,用于編譯所述XML文件,并顯示編譯后所生成的包含有所述網(wǎng)頁內(nèi)容的頁面。[0090]由于是從目標(biāo)網(wǎng)頁的源代碼中提取的網(wǎng)頁內(nèi)容,因此并不適合直接顯示給用戶。本實(shí)施例中,需要進(jìn)一步對網(wǎng)頁進(jìn)行顯示處理,具體采用可擴(kuò)展標(biāo)記語言XML對提取的網(wǎng)頁內(nèi)容進(jìn)行結(jié)構(gòu)化描述,從而得到對應(yīng)的XML文件,然后再編譯XML文件,即可得到主要為所提取的網(wǎng)頁內(nèi)容的以供顯示給用戶的新網(wǎng)頁。[0091]當(dāng)然,基于用戶閱讀要求,比如新網(wǎng)頁的布局(內(nèi)容對應(yīng)為提取到的網(wǎng)頁內(nèi)容),因此,根據(jù)提取的網(wǎng)頁內(nèi)容所對應(yīng)的HTML標(biāo)簽類型及預(yù)置的XML文件生成格式,來進(jìn)行新網(wǎng)頁的網(wǎng)頁格式布局,提升用戶閱讀體驗(yàn)。[0092]參照圖7,圖7為本發(fā)明網(wǎng)頁內(nèi)容提取裝置第四實(shí)施例的功能模塊示意圖?;谏鲜鲅b置第一實(shí)施例,本實(shí)施例中,所述網(wǎng)頁內(nèi)容提取裝置還包括:[0093]地址替換模塊80,用于在獲取所述目標(biāo)網(wǎng)頁或所述子目標(biāo)網(wǎng)頁失敗時,通過HTTP二級代理服務(wù)器進(jìn)行IP地址替換,并以新的IP地址重新獲取所述目標(biāo)網(wǎng)頁或所述子目標(biāo)網(wǎng)頁。[0094]通常,基于網(wǎng)站安全等因素的考慮,網(wǎng)站服務(wù)器都會限制同一IP的訪問次數(shù),因此,本實(shí)施例中,為避免導(dǎo)致訪問IP地址被限制,因此,地址替換模塊80在獲取目標(biāo)網(wǎng)頁或子目標(biāo)網(wǎng)頁失敗時,通過HTTP二級代理服務(wù)器進(jìn)行IP地址替換,并以新的IP地址重新獲取目標(biāo)網(wǎng)頁或子目標(biāo)網(wǎng)頁,從而得以繼續(xù)進(jìn)行目標(biāo)網(wǎng)頁的獲取以及網(wǎng)頁內(nèi)容的提取。[0095]以上僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的
技術(shù)領(lǐng)域:
,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)?!局鳈?quán)項】1.一種網(wǎng)頁內(nèi)容提取方法,其特征在于,所述網(wǎng)頁內(nèi)容提取方法包括以下步驟:51、獲取目標(biāo)網(wǎng)頁;52、判斷所述目標(biāo)網(wǎng)頁中是否存在超鏈接;53、若是,則獲取所述超鏈接所對應(yīng)的子目標(biāo)網(wǎng)頁,并以所述子目標(biāo)網(wǎng)頁作為下一目標(biāo)網(wǎng)頁,返回執(zhí)行S2,直到滿足預(yù)置退出條件時退出;54、根據(jù)設(shè)定的內(nèi)容采集規(guī)則,遍歷所述目標(biāo)網(wǎng)頁與所述子目標(biāo)網(wǎng)頁所對應(yīng)的源代碼,并從所述源代碼中提取滿足所述內(nèi)容采集規(guī)則的網(wǎng)頁內(nèi)容。2.如權(quán)利要求1所述的網(wǎng)頁內(nèi)容提取方法,其特征在于,所述內(nèi)容采集規(guī)則至少包括目標(biāo)內(nèi)容所對應(yīng)的HTML標(biāo)簽類型、目標(biāo)內(nèi)容所包含的字符或字符串、目標(biāo)內(nèi)容的正則表達(dá)式中的一種或多種。3.如權(quán)利要求1或2所述的網(wǎng)頁內(nèi)容提取方法,其特征在于,所述根據(jù)設(shè)定的內(nèi)容采集規(guī)則,遍歷所述目標(biāo)網(wǎng)頁與所述子目標(biāo)網(wǎng)頁所對應(yīng)的源代碼,并從所述源代碼中提取滿足所述內(nèi)容采集規(guī)則的網(wǎng)頁內(nèi)容之后包括:根據(jù)預(yù)置的數(shù)據(jù)處理規(guī)則,對所述網(wǎng)頁內(nèi)容進(jìn)行對應(yīng)的數(shù)據(jù)處理,其中,所述數(shù)據(jù)處理至少包括標(biāo)簽過濾處理、數(shù)據(jù)格式轉(zhuǎn)換、下載文件探測中的一種或多種。4.如權(quán)利要求1或2所述的網(wǎng)頁內(nèi)容提取方法,其特征在于,所述根據(jù)設(shè)定的內(nèi)容采集規(guī)則,遍歷所述目標(biāo)網(wǎng)頁與所述子目標(biāo)網(wǎng)頁所對應(yīng)的源代碼,并從所述源代碼中提取滿足所述內(nèi)容采集規(guī)則的網(wǎng)頁內(nèi)容之后還包括:根據(jù)所述網(wǎng)頁內(nèi)容所對應(yīng)的HTML標(biāo)簽類型及預(yù)置的XML文件生成格式,采用可擴(kuò)展標(biāo)記語言XML對所述網(wǎng)頁內(nèi)容進(jìn)行結(jié)構(gòu)化描述,得到對應(yīng)的XML文件;編譯所述XML文件,并顯示編譯后所生成的包含有所述網(wǎng)頁內(nèi)容的頁面。5.如權(quán)利要求1所述的網(wǎng)頁內(nèi)容提取方法,其特征在于,所述網(wǎng)頁內(nèi)容提取方法還包括:在獲取所述目標(biāo)網(wǎng)頁或所述子目標(biāo)網(wǎng)頁失敗時,通過HTTP二級代理服務(wù)器進(jìn)行IP地址替換,并以新的IP地址重新獲取所述目標(biāo)網(wǎng)頁或所述子目標(biāo)網(wǎng)頁。6.—種網(wǎng)頁內(nèi)容提取裝置,其特征在于,所述網(wǎng)頁內(nèi)容提取裝置包括:第一獲取模塊,用于獲取目標(biāo)網(wǎng)頁;判斷模塊,用于判斷所述目標(biāo)網(wǎng)頁中是否存在超鏈接;第二獲取模塊,用于若所述目標(biāo)網(wǎng)頁中存在超鏈接,則獲取所述超鏈接所對應(yīng)的子目標(biāo)網(wǎng)頁,并以所述子目標(biāo)網(wǎng)頁作為下一目標(biāo)網(wǎng)頁,返回執(zhí)行所述判斷模塊,直到滿足預(yù)置退出條件時退出;提取模塊,用于根據(jù)設(shè)定的內(nèi)容采集規(guī)則,遍歷所述目標(biāo)網(wǎng)頁與所述子目標(biāo)網(wǎng)頁所對應(yīng)的源代碼,并從所述源代碼中提取滿足所述內(nèi)容采集規(guī)則的網(wǎng)頁內(nèi)容。7.如權(quán)利要求6所述的網(wǎng)頁內(nèi)容提取裝置,其特征在于,所述內(nèi)容采集規(guī)則至少包括目標(biāo)內(nèi)容所對應(yīng)的HTML標(biāo)簽類型、目標(biāo)內(nèi)容所包含的字符或字符串、目標(biāo)內(nèi)容的正則表達(dá)式中的一種或多種。8.如權(quán)利要求6或7所述的網(wǎng)頁內(nèi)容提取裝置,其特征在于,所述網(wǎng)頁內(nèi)容提取裝置還包括:數(shù)據(jù)處理模塊,用于根據(jù)預(yù)置的數(shù)據(jù)處理規(guī)則,對所述網(wǎng)頁內(nèi)容進(jìn)行對應(yīng)的數(shù)據(jù)處理,其中,所述數(shù)據(jù)處理至少包括標(biāo)簽過濾處理、數(shù)據(jù)格式轉(zhuǎn)換、下載文件探測中的一種或多種。9.如權(quán)利要求6或7所述的網(wǎng)頁內(nèi)容提取裝置,其特征在于,所述網(wǎng)頁內(nèi)容提取裝置還包括:結(jié)構(gòu)化描述模塊,用于根據(jù)所述網(wǎng)頁內(nèi)容所對應(yīng)的HTML標(biāo)簽類型及預(yù)置的XML文件生成格式,采用可擴(kuò)展標(biāo)記語言XML對所述網(wǎng)頁內(nèi)容進(jìn)行結(jié)構(gòu)化描述,得到對應(yīng)的XML文件;編譯模塊,用于編譯所述XML文件,并顯示編譯后所生成的包含有所述網(wǎng)頁內(nèi)容的頁面。10.如權(quán)利要求6所述的網(wǎng)頁內(nèi)容提取裝置,其特征在于,所述網(wǎng)頁內(nèi)容提取裝置還包括:地址替換模塊,用于在獲取所述目標(biāo)網(wǎng)頁或所述子目標(biāo)網(wǎng)頁失敗時,通過HTTP二級代理服務(wù)器進(jìn)行IP地址替換,并以新的IP地址重新獲取所述目標(biāo)網(wǎng)頁或所述子目標(biāo)網(wǎng)頁。【文檔編號】G06F17/30GK105938496SQ201610370263【公開日】2016年9月14日【申請日】2016年5月27日【發(fā)明人】張銳【申請人】深圳市永興元科技有限公司