一種網(wǎng)頁數(shù)據(jù)提取方法

文檔序號(hào)：6491804閱讀：1237來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種網(wǎng)頁數(shù)據(jù)提取方法
【專利摘要】本發(fā)明公開了一種網(wǎng)頁數(shù)據(jù)提取方法，包括以下步驟：對(duì)中英文網(wǎng)頁及文字的判別處理、提取文本、根據(jù)預(yù)先建立的特殊字符表查找出網(wǎng)頁數(shù)據(jù)中的特殊字符并對(duì)特殊字符進(jìn)行處理和過濾網(wǎng)頁數(shù)據(jù)字符和存儲(chǔ)網(wǎng)頁文本；本發(fā)明能夠準(zhǔn)確的提取出網(wǎng)頁數(shù)據(jù)的文本信息，并能去除掉一些腳本以及過濾掉一些網(wǎng)頁數(shù)據(jù)字符，保證提取文本的準(zhǔn)確性；能夠?qū)μ厥庾址M(jìn)行特殊的解析處理；能夠識(shí)別中英文網(wǎng)頁并能采取對(duì)應(yīng)的處理措施，避免對(duì)網(wǎng)頁數(shù)據(jù)進(jìn)行錯(cuò)誤的處理。
【專利說明】一種網(wǎng)頁數(shù)據(jù)提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種數(shù)據(jù)采集技術(shù)，特別是一種網(wǎng)頁數(shù)據(jù)提取方法；
【背景技術(shù)】
[0002]早在1969年，IBM公司開發(fā)了一種文檔描述性語言GML，用來解決不同系統(tǒng)中文檔格式不同的問題；GML是IBM許多文檔系統(tǒng)的基礎(chǔ)，包括Script和Bookmaster ;它在1986年演變成一個(gè)國際標(biāo)準(zhǔn)IS08879，并被稱為標(biāo)準(zhǔn)通用標(biāo)記語言即SGML ；SGML是很多大型組織比如飛機(jī)、汽車公司和軍隊(duì)的文檔標(biāo)準(zhǔn)，是與具體的語言無關(guān)的、結(jié)構(gòu)化的、可擴(kuò)展的語言，這些特點(diǎn)使它受到很多公司歡迎，被用來創(chuàng)建、處理和發(fā)布大量的文本信息；
[0003]標(biāo)準(zhǔn)通用標(biāo)記語言即SGML是一種元語言，即用來描述標(biāo)記語言的語言；HTML文檔類型定義是HTML語法的標(biāo)準(zhǔn)定義，HTML語法是用SGML文檔類型定義而成的；HTML是在WWW上建立超文本文件的語言，它通過標(biāo)記和屬性對(duì)一段文本的語言進(jìn)行描述；標(biāo)記是區(qū)分文本各組成部分的分界符，用來把HTML文檔劃分成不同的邏輯部分，如段落、標(biāo)題和表格等；HTML標(biāo)記有兩種作用:首先是定義文檔的結(jié)構(gòu)，以便于瀏覽器顯示該文檔；其次提供超文本鏈接，可以指向網(wǎng)絡(luò)中另一臺(tái)計(jì)算機(jī)上的文件或者文件中的某一位置，這既方便了用戶瀏覽，又可以引導(dǎo)搜索引擎中的網(wǎng)頁采集器收集更多的網(wǎng)頁；HTML支持在文本中嵌入圖像、聲音、動(dòng)畫等不同格式的文件，還具有強(qiáng)大的排版功能，利用HTML可以制作不是很復(fù)雜且功能強(qiáng)大，支持不同數(shù)據(jù)格式的文件嵌入，這也是WWW盛行的原因之一，其主要特點(diǎn)如下:
[0004]1、簡易性——HTML版本升級(jí)采用超集方式，從而更加靈活方便；
[0005]2、可擴(kuò)展性一HTML語言的廣泛應(yīng)用帶來了加強(qiáng)功能、增加標(biāo)識(shí)符等要求，HTML采取子類元素的方式為系統(tǒng)擴(kuò)展帶來保證；
[0006]3、平臺(tái)無關(guān)性一雖然PC機(jī)大行其道，但使用MAC等其它機(jī)器的也大有人在，HTML可以使用在廣泛的平臺(tái)上，這使得Wffff廣為盛行；
[0007]網(wǎng)頁數(shù)據(jù)信息是搜索引擎采集到的主要信息，它是指導(dǎo)搜索引擎進(jìn)一步采集、分類和索引的基礎(chǔ)；因此網(wǎng)頁數(shù)據(jù)提取技術(shù)是決定搜索引擎搜索效率和質(zhì)量的關(guān)鍵；目前網(wǎng)頁數(shù)據(jù)提取技術(shù)主要包括網(wǎng)頁超鏈接提取技術(shù)和網(wǎng)頁純文本提取技術(shù)，本發(fā)明主要介紹了一種網(wǎng)頁數(shù)據(jù)的提取方法。

【發(fā)明內(nèi)容】

[0008]本發(fā)明針對(duì)以上問題的提出，而研制一種為實(shí)現(xiàn)網(wǎng)頁數(shù)據(jù)的提取，首先對(duì)網(wǎng)頁的結(jié)構(gòu)以及網(wǎng)頁的控制符進(jìn)行了充分的調(diào)研分析，并對(duì)網(wǎng)頁內(nèi)容和控制符等進(jìn)行正確的處理和判斷的一種網(wǎng)頁數(shù)據(jù)的提取方法；
[0009]本發(fā)明的技術(shù)手段如下:
[0010]一種網(wǎng)頁數(shù)據(jù)提取方法，其特征在于包括以下步驟:
[0011]A、對(duì)中英文網(wǎng)頁及文字的判別處理；若超文本網(wǎng)頁編碼采用GB2312標(biāo)準(zhǔn)則為中文網(wǎng)頁，否則為英文網(wǎng)頁；對(duì)在網(wǎng)頁標(biāo)題及正文中的中文、英文或符號(hào)通過字符編碼的范圍進(jìn)行判斷；
[0012]B、提取文本；
[0013]B1、對(duì)獲取的HTML源文件進(jìn)行過濾處理并去掉其中的標(biāo)簽控制符提取文本信息；
[0014]B2、去除腳本；去除腳本的方式包括兩種，一種為對(duì)HTML進(jìn)行解析時(shí)，若遇到Script開始標(biāo)簽，則查找Script結(jié)束標(biāo)簽，查找成功后在該結(jié)束標(biāo)簽后繼續(xù)進(jìn)行解析?’另一種為默認(rèn)腳本為文本并將其提取出來，然后再判斷該文本是否為腳本代碼，若是腳本則不予收集；
[0015]C、根據(jù)預(yù)先建立的特殊字符表查找出網(wǎng)頁數(shù)據(jù)中的特殊字符并對(duì)特殊字符進(jìn)行處理；
[0016]D、過濾網(wǎng)頁數(shù)據(jù)字符和存儲(chǔ)網(wǎng)頁文本:對(duì)一個(gè)網(wǎng)頁中的文本進(jìn)行存儲(chǔ)并對(duì)各分離的文本之間加上分隔符，同時(shí)將標(biāo)簽劃分為分隔標(biāo)簽和普通標(biāo)簽，當(dāng)兩個(gè)文本之間為普通標(biāo)簽時(shí)則兩個(gè)文本是連續(xù)文本；最后過濾網(wǎng)頁數(shù)據(jù)后統(tǒng)一網(wǎng)頁數(shù)據(jù)字符格式。
[0017]與現(xiàn)有技術(shù)相比，本發(fā)明具有以下有益效果:
[0018]1、本發(fā)明能夠準(zhǔn)確的提取出網(wǎng)頁數(shù)據(jù)的文本信息，并能去除掉一些腳本以及過濾掉一些網(wǎng)頁數(shù)據(jù)字符，保證提取文本的準(zhǔn)確性；
[0019]2、本發(fā)明能夠?qū)μ厥庾址M(jìn)行特殊的解析處理；
[0020]3、本發(fā)明能夠識(shí)別中英文網(wǎng)頁并能采取對(duì)應(yīng)的處理措施，避免對(duì)網(wǎng)頁數(shù)據(jù)進(jìn)行錯(cuò)誤的處理。
【專利附圖】

【附圖說明】
[0021]圖1是本發(fā)明所述的HTML網(wǎng)頁純文本提取的流程圖。
【具體實(shí)施方式】
[0022]下面結(jié)合附圖對(duì)本發(fā)明進(jìn)行進(jìn)一步地描述:如圖1所示，在HTML網(wǎng)頁純文本提取的工作流程中，首先本發(fā)明將待處理的網(wǎng)頁文件轉(zhuǎn)換為字符流形式并統(tǒng)一大小寫，然后順序定位到一個(gè)控制符開始提取過程。 [0023]一種網(wǎng)頁數(shù)據(jù)提取方法，包括以下步驟:
[0024]A、對(duì)中英文網(wǎng)頁及文字的判別處理；其將在超文本中<META>標(biāo)識(shí)內(nèi)出現(xiàn)charset=gb2312的網(wǎng)頁當(dāng)做中文網(wǎng)頁,否則當(dāng)做英文網(wǎng)頁處理,系統(tǒng)的設(shè)計(jì)不支持BIG5和HZ編碼；在網(wǎng)頁標(biāo)題及正文中可能有中文、英文或其它符號(hào)，可以通過字符編碼的范圍對(duì)其進(jìn)行判斷；其中英文字母的字符編碼范圍當(dāng)字母大寫時(shí)為0χ41-0χ5Α ;當(dāng)字母小寫時(shí)為0χ61-0χ7Α;對(duì)于簡體中文字符集GB2312而言漢字的字符編碼范圍是0x8140-0xFEA0部分，其中0xAlAl-0xA9EF是中文的標(biāo)點(diǎn)符號(hào)表，本步驟把這個(gè)范圍的字符當(dāng)其它符號(hào)處理；
[0025]B、提取文本；
[0026]B1、對(duì)獲取的HTML源文件進(jìn)行過濾處理以去掉其中的Tag控制符提取文本信息；首先定位“〈”標(biāo)識(shí)的位置，再定位其后相鄰的“)”標(biāo)識(shí)的位置，然后去掉兩個(gè)位置間的字符串；或者先定位“〉”標(biāo)識(shí)的位置，再定位其后相鄰的“〈”標(biāo)識(shí)的位置，然后累加兩個(gè)位置間的字符串；[0027]B2、去除腳本；主要是腳本語言代碼但也有例外；腳本語言代碼是夾在〈script〉和〈/script〉之間的代碼，它是由瀏覽器解釋并執(zhí)行的，然而腳本代碼卻具有上面所描述的文本的特征，所以在提取文本時(shí)應(yīng)注意排除它；一種排除的方式是在對(duì)HTML進(jìn)行解析時(shí)，如果遇到〈script〉開始標(biāo)簽，就可以馬上找到〈/script〉結(jié)束標(biāo)簽，然后在其后繼續(xù)進(jìn)行解析；另一種排除方法是姑且把它當(dāng)作文本提取出來，然后再判斷它是否是腳本代碼，如果是腳本，就不予收集；
[0028]C、特殊字符處理；對(duì)HTML語言中的部分特殊字符進(jìn)行特殊的解析處理，避免亂碼現(xiàn)象，具體包括對(duì) <>&"®©™&ensp;&emsp ； 等特殊字符的處理；
[0029]D、過濾網(wǎng)頁數(shù)據(jù)字符，存儲(chǔ)網(wǎng)頁文本；將一個(gè)網(wǎng)頁中的文本進(jìn)行存儲(chǔ)時(shí)，各分離的文本之間應(yīng)該加上分隔符；但是有些被標(biāo)簽分隔開的文本確實(shí)是一個(gè)整體，不能將其之間加上分隔符，例如被<br>分隔的文本；因此在實(shí)際處理文本時(shí)，需根據(jù)標(biāo)簽的意義，把標(biāo)簽分為兩類:一類是起分隔作用的標(biāo)簽，另一類是不起分隔作用的標(biāo)簽；后一類標(biāo)簽包括:
[0030]〈A>〈BXI>〈EM>〈T2>〈BIG>〈SUB>〈SUP>〈FWT>〈SMALL>〈STR0NG>〈STRIKE>〈br> 等；這類標(biāo)簽在語義上不起分隔作用，兩個(gè)文本之間出現(xiàn)這樣的標(biāo)簽應(yīng)認(rèn)為兩個(gè)文本是連續(xù)的；由于網(wǎng)頁中的英文字符有大小寫之分，中文字符有全角、半角的差別，它們的不一致性將影響到后面的數(shù)據(jù)處理；所以在網(wǎng)頁數(shù)據(jù)過濾后要對(duì)網(wǎng)頁數(shù)據(jù)字符的格式進(jìn)行統(tǒng)一。
[0031]與現(xiàn)有技術(shù)相比，本發(fā)明具有以下有益效果:
[0032]1、本發(fā)明能夠準(zhǔn)確的提取出網(wǎng)頁數(shù)據(jù)的文本信息，并能去除掉一些腳本以及過濾掉一些網(wǎng)頁數(shù)據(jù)字符，保證提取文本的準(zhǔn)確性；
[0033]2、本發(fā)明能夠?qū)μ厥庾址M(jìn)行特殊的解析處理；
[0034]3、本發(fā)明能夠識(shí)別中英文網(wǎng)頁并能采取對(duì)應(yīng)的處理措施，避免對(duì)網(wǎng)頁數(shù)據(jù)進(jìn)行錯(cuò)誤的處理。
[0035]以上所述，僅為本發(fā)明較佳的【具體實(shí)施方式】，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi)，根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變，都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種網(wǎng)頁數(shù)據(jù)提取方法，其特征在于包括以下步驟: A、對(duì)中英文網(wǎng)頁及文字的判別處理；若超文本網(wǎng)頁編碼采用GB2312標(biāo)準(zhǔn)則為中文網(wǎng)頁，否則為英文網(wǎng)頁；對(duì)在網(wǎng)頁標(biāo)題及正文中的中文、英文或符號(hào)通過字符編碼的范圍進(jìn)行判斷； B、提取文本； B1、對(duì)獲取的HTML源文件進(jìn)行過濾處理并去掉其中的標(biāo)簽控制符提取文本信息； B2、去除腳本；去除腳本的方式包括兩種，一種為對(duì)HTML進(jìn)行解析時(shí)，若遇到Script開始標(biāo)簽，則查找Script結(jié)束標(biāo)簽，查找成功后在該結(jié)束標(biāo)簽后繼續(xù)進(jìn)彳T解析；另一種為默認(rèn)腳本為文本并將其提取出來，然后再判斷該文本是否為腳本代碼，若是腳本則不予收集; C、根據(jù)預(yù)先建立的特殊字符表查找出網(wǎng)頁數(shù)據(jù)中的特殊字符并對(duì)特殊字符進(jìn)行處理； D、過濾網(wǎng)頁數(shù)據(jù)字符和存儲(chǔ)網(wǎng)頁文本:對(duì)一個(gè)網(wǎng)頁中的文本進(jìn)行存儲(chǔ)并對(duì)各分離的文本之間加上分隔符，同時(shí)將標(biāo)簽劃分為分隔標(biāo)簽和普通標(biāo)簽，當(dāng)兩個(gè)文本之間為普通標(biāo)簽時(shí)則兩個(gè)文本是連續(xù)文本；最后過濾網(wǎng)頁數(shù)據(jù)后統(tǒng)一網(wǎng)頁數(shù)據(jù)字符格式。
【文檔編號(hào)】G06F17/30GK103838790SQ201210491213
【公開日】2014年6月4日申請(qǐng)日期:2012年11月27日優(yōu)先權(quán)日:2012年11月27日
【發(fā)明者】夏銘澤, 侯辛酉申請(qǐng)人:大連靈動(dòng)科技發(fā)展有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：夏銘澤;侯辛酉;
技術(shù)所有人：大連靈動(dòng)科技發(fā)展有限公司;
我是此專利的發(fā)明人

上一篇：客戶端特征的識(shí)別方法和裝置制造方法
上一篇：一種腦成像灰度圖像的染色方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

如何抓取網(wǎng)頁數(shù)據(jù)相關(guān)技術(shù)

如何獲取網(wǎng)頁數(shù)據(jù)相關(guān)技術(shù)

提取網(wǎng)頁數(shù)據(jù)相關(guān)技術(shù)

網(wǎng)頁數(shù)據(jù)提取工具相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)頁數(shù)據(jù)提取方法