欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)頁數(shù)據(jù)提取方法

文檔序號(hào):6491804閱讀:1237來源:國知局
一種網(wǎng)頁數(shù)據(jù)提取方法
【專利摘要】本發(fā)明公開了一種網(wǎng)頁數(shù)據(jù)提取方法,包括以下步驟:對(duì)中英文網(wǎng)頁及文字的判別處理、提取文本、根據(jù)預(yù)先建立的特殊字符表查找出網(wǎng)頁數(shù)據(jù)中的特殊字符并對(duì)特殊字符進(jìn)行處理和過濾網(wǎng)頁數(shù)據(jù)字符和存儲(chǔ)網(wǎng)頁文本;本發(fā)明能夠準(zhǔn)確的提取出網(wǎng)頁數(shù)據(jù)的文本信息,并能去除掉一些腳本以及過濾掉一些網(wǎng)頁數(shù)據(jù)字符,保證提取文本的準(zhǔn)確性;能夠?qū)μ厥庾址M(jìn)行特殊的解析處理;能夠識(shí)別中英文網(wǎng)頁并能采取對(duì)應(yīng)的處理措施,避免對(duì)網(wǎng)頁數(shù)據(jù)進(jìn)行錯(cuò)誤的處理。
【專利說明】一種網(wǎng)頁數(shù)據(jù)提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種數(shù)據(jù)采集技術(shù),特別是一種網(wǎng)頁數(shù)據(jù)提取方法;
【背景技術(shù)】
[0002]早在1969年,IBM公司開發(fā)了一種文檔描述性語言GML,用來解決不同系統(tǒng)中文檔格式不同的問題;GML是IBM許多文檔系統(tǒng)的基礎(chǔ),包括Script和Bookmaster ;它在1986年演變成一個(gè)國際標(biāo)準(zhǔn)IS08879,并被稱為標(biāo)準(zhǔn)通用標(biāo)記語言即SGML ;SGML是很多大型組織比如飛機(jī)、汽車公司和軍隊(duì)的文檔標(biāo)準(zhǔn),是與具體的語言無關(guān)的、結(jié)構(gòu)化的、可擴(kuò)展的語言,這些特點(diǎn)使它受到很多公司歡迎,被用來創(chuàng)建、處理和發(fā)布大量的文本信息;
[0003]標(biāo)準(zhǔn)通用標(biāo)記語言即SGML是一種元語言,即用來描述標(biāo)記語言的語言;HTML文檔類型定義是HTML語法的標(biāo)準(zhǔn)定義,HTML語法是用SGML文檔類型定義而成的;HTML是在WWW上建立超文本文件的語言,它通過標(biāo)記和屬性對(duì)一段文本的語言進(jìn)行描述;標(biāo)記是區(qū)分文本各組成部分的分界符,用來把HTML文檔劃分成不同的邏輯部分,如段落、標(biāo)題和表格等;HTML標(biāo)記有兩種作用:首先是定義文檔的結(jié)構(gòu),以便于瀏覽器顯示該文檔;其次提供超文本鏈接,可以指向網(wǎng)絡(luò)中另一臺(tái)計(jì)算機(jī)上的文件或者文件中的某一位置,這既方便了用戶瀏覽,又可以引導(dǎo)搜索引擎中的網(wǎng)頁采集器收集更多的網(wǎng)頁;HTML支持在文本中嵌入圖像、聲音、動(dòng)畫等不同格式的文件,還具有強(qiáng)大的排版功能,利用HTML可以制作不是很復(fù)雜且功能強(qiáng)大,支持不同數(shù)據(jù)格式的文件嵌入,這也是WWW盛行的原因之一,其主要特點(diǎn)如下:
[0004]1、簡易性——HTML版本升級(jí)采用超集方式,從而更加靈活方便;
[0005]2、可擴(kuò)展性一HTML語言的廣泛應(yīng)用帶來了加強(qiáng)功能、增加標(biāo)識(shí)符等要求,HTML采取子類元素的方式為系統(tǒng)擴(kuò)展帶來保證;
[0006]3、平臺(tái)無關(guān)性一雖然PC機(jī)大行其道,但使用MAC等其它機(jī)器的也大有人在,HTML可以使用在廣泛的平臺(tái)上,這使得Wffff廣為盛行;
[0007]網(wǎng)頁數(shù)據(jù)信息是搜索引擎采集到的主要信息,它是指導(dǎo)搜索引擎進(jìn)一步采集、分類和索引的基礎(chǔ);因此網(wǎng)頁數(shù)據(jù)提取技術(shù)是決定搜索引擎搜索效率和質(zhì)量的關(guān)鍵;目前網(wǎng)頁數(shù)據(jù)提取技術(shù)主要包括網(wǎng)頁超鏈接提取技術(shù)和網(wǎng)頁純文本提取技術(shù),本發(fā)明主要介紹了一種網(wǎng)頁數(shù)據(jù)的提取方法。

【發(fā)明內(nèi)容】

[0008]本發(fā)明針對(duì)以上問題的提出,而研制一種為實(shí)現(xiàn)網(wǎng)頁數(shù)據(jù)的提取,首先對(duì)網(wǎng)頁的結(jié)構(gòu)以及網(wǎng)頁的控制符進(jìn)行了充分的調(diào)研分析,并對(duì)網(wǎng)頁內(nèi)容和控制符等進(jìn)行正確的處理和判斷的一種網(wǎng)頁數(shù)據(jù)的提取方法;
[0009]本發(fā)明的技術(shù)手段如下:
[0010]一種網(wǎng)頁數(shù)據(jù)提取方法,其特征在于包括以下步驟:
[0011]A、對(duì)中英文網(wǎng)頁及文字的判別處理;若超文本網(wǎng)頁編碼采用GB2312標(biāo)準(zhǔn)則為中文網(wǎng)頁,否則為英文網(wǎng)頁;對(duì)在網(wǎng)頁標(biāo)題及正文中的中文、英文或符號(hào)通過字符編碼的范圍進(jìn)行判斷;
[0012]B、提取文本;
[0013]B1、對(duì)獲取的HTML源文件進(jìn)行過濾處理并去掉其中的標(biāo)簽控制符提取文本信息;
[0014]B2、去除腳本;去除腳本的方式包括兩種,一種為對(duì)HTML進(jìn)行解析時(shí),若遇到Script開始標(biāo)簽,則查找Script結(jié)束標(biāo)簽,查找成功后在該結(jié)束標(biāo)簽后繼續(xù)進(jìn)行解析?’另一種為默認(rèn)腳本為文本并將其提取出來,然后再判斷該文本是否為腳本代碼,若是腳本則不予收集;
[0015]C、根據(jù)預(yù)先建立的特殊字符表查找出網(wǎng)頁數(shù)據(jù)中的特殊字符并對(duì)特殊字符進(jìn)行處理;
[0016]D、過濾網(wǎng)頁數(shù)據(jù)字符和存儲(chǔ)網(wǎng)頁文本:對(duì)一個(gè)網(wǎng)頁中的文本進(jìn)行存儲(chǔ)并對(duì)各分離的文本之間加上分隔符,同時(shí)將標(biāo)簽劃分為分隔標(biāo)簽和普通標(biāo)簽,當(dāng)兩個(gè)文本之間為普通標(biāo)簽時(shí)則兩個(gè)文本是連續(xù)文本;最后過濾網(wǎng)頁數(shù)據(jù)后統(tǒng)一網(wǎng)頁數(shù)據(jù)字符格式。
[0017]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
[0018]1、本發(fā)明能夠準(zhǔn)確的提取出網(wǎng)頁數(shù)據(jù)的文本信息,并能去除掉一些腳本以及過濾掉一些網(wǎng)頁數(shù)據(jù)字符,保證提取文本的準(zhǔn)確性;
[0019]2、本發(fā)明能夠?qū)μ厥庾址M(jìn)行特殊的解析處理;
[0020]3、本發(fā)明能夠識(shí)別中英文網(wǎng)頁并能采取對(duì)應(yīng)的處理措施,避免對(duì)網(wǎng)頁數(shù)據(jù)進(jìn)行錯(cuò)誤的處理。
【專利附圖】

【附圖說明】
[0021]圖1是本發(fā)明所述的HTML網(wǎng)頁純文本提取的流程圖。
【具體實(shí)施方式】
[0022]下面結(jié)合附圖對(duì)本發(fā)明進(jìn)行進(jìn)一步地描述:如圖1所示,在HTML網(wǎng)頁純文本提取的工作流程中,首先本發(fā)明將待處理的網(wǎng)頁文件轉(zhuǎn)換為字符流形式并統(tǒng)一大小寫,然后順序定位到一個(gè)控制符開始提取過程。 [0023]一種網(wǎng)頁數(shù)據(jù)提取方法,包括以下步驟:
[0024]A、對(duì)中英文網(wǎng)頁及文字的判別處理;其將在超文本中<META>標(biāo)識(shí)內(nèi)出現(xiàn)charset=gb2312的網(wǎng)頁當(dāng)做中文網(wǎng)頁,否則當(dāng)做英文網(wǎng)頁處理,系統(tǒng)的設(shè)計(jì)不支持BIG5和HZ編碼;在網(wǎng)頁標(biāo)題及正文中可能有中文、英文或其它符號(hào),可以通過字符編碼的范圍對(duì)其進(jìn)行判斷;其中英文字母的字符編碼范圍當(dāng)字母大寫時(shí)為0χ41-0χ5Α ;當(dāng)字母小寫時(shí)為0χ61-0χ7Α;對(duì)于簡體中文字符集GB2312而言漢字的字符編碼范圍是0x8140-0xFEA0部分,其中0xAlAl-0xA9EF是中文的標(biāo)點(diǎn)符號(hào)表,本步驟把這個(gè)范圍的字符當(dāng)其它符號(hào)處理;
[0025]B、提取文本;
[0026]B1、對(duì)獲取的HTML源文件進(jìn)行過濾處理以去掉其中的Tag控制符提取文本信息;首先定位“〈”標(biāo)識(shí)的位置,再定位其后相鄰的“)”標(biāo)識(shí)的位置,然后去掉兩個(gè)位置間的字符串;或者先定位“〉”標(biāo)識(shí)的位置,再定位其后相鄰的“〈”標(biāo)識(shí)的位置,然后累加兩個(gè)位置間的字符串;[0027]B2、去除腳本;主要是腳本語言代碼但也有例外;腳本語言代碼是夾在〈script〉和〈/script〉之間的代碼,它是由瀏覽器解釋并執(zhí)行的,然而腳本代碼卻具有上面所描述的文本的特征,所以在提取文本時(shí)應(yīng)注意排除它;一種排除的方式是在對(duì)HTML進(jìn)行解析時(shí),如果遇到〈script〉開始標(biāo)簽,就可以馬上找到〈/script〉結(jié)束標(biāo)簽,然后在其后繼續(xù)進(jìn)行解析;另一種排除方法是姑且把它當(dāng)作文本提取出來,然后再判斷它是否是腳本代碼,如果是腳本,就不予收集;
[0028]C、特殊字符處理;對(duì)HTML語言中的部分特殊字符進(jìn)行特殊的解析處理,避免亂碼現(xiàn)象,具體包括對(duì) &lt;&gt;&amp;&quot;&reg;&copy;&trade;&ensp;&emsp ;&nbsp;等特殊字符的處理;
[0029]D、過濾網(wǎng)頁數(shù)據(jù)字符,存儲(chǔ)網(wǎng)頁文本;將一個(gè)網(wǎng)頁中的文本進(jìn)行存儲(chǔ)時(shí),各分離的文本之間應(yīng)該加上分隔符;但是有些被標(biāo)簽分隔開的文本確實(shí)是一個(gè)整體,不能將其之間加上分隔符,例如被<br>分隔的文本;因此在實(shí)際處理文本時(shí),需根據(jù)標(biāo)簽的意義,把標(biāo)簽分為兩類:一類是起分隔作用的標(biāo)簽,另一類是不起分隔作用的標(biāo)簽;后一類標(biāo)簽包括:
[0030]〈A>〈BXI>〈EM>〈T2>〈BIG>〈SUB>〈SUP>〈FWT>〈SMALL>〈STR0NG>〈STRIKE>〈br> 等;這類標(biāo)簽在語義上不起分隔作用,兩個(gè)文本之間出現(xiàn)這樣的標(biāo)簽應(yīng)認(rèn)為兩個(gè)文本是連續(xù)的;由于網(wǎng)頁中的英文字符有大小寫之分,中文字符有全角、半角的差別,它們的不一致性將影響到后面的數(shù)據(jù)處理;所以在網(wǎng)頁數(shù)據(jù)過濾后要對(duì)網(wǎng)頁數(shù)據(jù)字符的格式進(jìn)行統(tǒng)一。
[0031]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
[0032]1、本發(fā)明能夠準(zhǔn)確的提取出網(wǎng)頁數(shù)據(jù)的文本信息,并能去除掉一些腳本以及過濾掉一些網(wǎng)頁數(shù)據(jù)字符,保證提取文本的準(zhǔn)確性;
[0033]2、本發(fā)明能夠?qū)μ厥庾址M(jìn)行特殊的解析處理;
[0034]3、本發(fā)明能夠識(shí)別中英文網(wǎng)頁并能采取對(duì)應(yīng)的處理措施,避免對(duì)網(wǎng)頁數(shù)據(jù)進(jìn)行錯(cuò)誤的處理。
[0035]以上所述,僅為本發(fā)明較佳的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種網(wǎng)頁數(shù)據(jù)提取方法,其特征在于包括以下步驟: A、對(duì)中英文網(wǎng)頁及文字的判別處理;若超文本網(wǎng)頁編碼采用GB2312標(biāo)準(zhǔn)則為中文網(wǎng)頁,否則為英文網(wǎng)頁;對(duì)在網(wǎng)頁標(biāo)題及正文中的中文、英文或符號(hào)通過字符編碼的范圍進(jìn)行判斷; B、提取文本; B1、對(duì)獲取的HTML源文件進(jìn)行過濾處理并去掉其中的標(biāo)簽控制符提取文本信息; B2、去除腳本;去除腳本的方式包括兩種,一種為對(duì)HTML進(jìn)行解析時(shí),若遇到Script開始標(biāo)簽,則查找Script結(jié)束標(biāo)簽,查找成功后在該結(jié)束標(biāo)簽后繼續(xù)進(jìn)彳T解析;另一種為默認(rèn)腳本為文本并將其提取出來,然后再判斷該文本是否為腳本代碼,若是腳本則不予收集; C、根據(jù)預(yù)先建立的特殊字符表查找出網(wǎng)頁數(shù)據(jù)中的特殊字符并對(duì)特殊字符進(jìn)行處理; D、過濾網(wǎng)頁數(shù)據(jù)字符和存儲(chǔ)網(wǎng)頁文本:對(duì)一個(gè)網(wǎng)頁中的文本進(jìn)行存儲(chǔ)并對(duì)各分離的文本之間加上分隔符,同時(shí)將標(biāo)簽劃分為分隔標(biāo)簽和普通標(biāo)簽,當(dāng)兩個(gè)文本之間為普通標(biāo)簽時(shí)則兩個(gè)文本是連續(xù)文本;最后過濾網(wǎng)頁數(shù)據(jù)后統(tǒng)一網(wǎng)頁數(shù)據(jù)字符格式。
【文檔編號(hào)】G06F17/30GK103838790SQ201210491213
【公開日】2014年6月4日 申請(qǐng)日期:2012年11月27日 優(yōu)先權(quán)日:2012年11月27日
【發(fā)明者】夏銘澤, 侯辛酉 申請(qǐng)人:大連靈動(dòng)科技發(fā)展有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
吉首市| 十堰市| 溆浦县| 额济纳旗| 桑植县| 沁水县| 屏东市| 股票| 基隆市| 永宁县| 武强县| 孟连| 陆良县| 泰安市| 利津县| 长子县| 衡东县| 焉耆| 墨江| 衡阳县| 固原市| 社旗县| 湛江市| 龙泉市| 靖江市| 建平县| 三原县| 达州市| 绍兴市| 墨江| 太谷县| 赞皇县| 襄城县| 四子王旗| 理塘县| 沛县| 桑植县| 宝坻区| 酒泉市| 德钦县| 商丘市|