欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種從網(wǎng)頁(yè)中提取主要內(nèi)容的方法及裝置的制造方法

文檔序號(hào):9750902閱讀:383來(lái)源:國(guó)知局
一種從網(wǎng)頁(yè)中提取主要內(nèi)容的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,具體涉及一種從網(wǎng)頁(yè)中提取主要內(nèi)容的方法及裝置。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)技術(shù)的發(fā)展,豐富的互聯(lián)網(wǎng)資源,為人們的日常信息生活帶來(lái)了極大便利。相應(yīng)地,也往往需要在網(wǎng)頁(yè)上獲取相關(guān)的網(wǎng)頁(yè)內(nèi)容,以便于后續(xù)處理,例如對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行分析從而獲知相關(guān)網(wǎng)頁(yè)發(fā)布的信息內(nèi)容。然而,網(wǎng)頁(yè)上各種類型以及各種結(jié)構(gòu)的數(shù)據(jù)都有可能混雜在一起,這就給抓取網(wǎng)頁(yè)上的正文信息帶來(lái)了不小的麻煩。
[0003]傳統(tǒng)的抓取方式目的性、局限性很強(qiáng),僅僅是對(duì)某一特定的網(wǎng)頁(yè)進(jìn)行提取,而一旦變更了另外一個(gè)網(wǎng)頁(yè),則需要重新設(shè)計(jì)程序處理方式,然而開發(fā)需要一定的時(shí)間周期,因此時(shí)效也會(huì)有一定延遲。如果之前抓取過(guò)的網(wǎng)站進(jìn)行改版,原有的抓取方案可能就不再適用,仍需要重新設(shè)計(jì)抓取方案,這些過(guò)程需要大量重復(fù)并且低效的工作。
[0004]因此,如何有效快速地提取網(wǎng)頁(yè)中的主要內(nèi)容,已成為高效率提取網(wǎng)頁(yè)內(nèi)容的主要課題。

【發(fā)明內(nèi)容】

[0005]因此,本發(fā)明要解決的技術(shù)問(wèn)題在于現(xiàn)有網(wǎng)頁(yè)主要內(nèi)容抓取方法的目的性和局限性較強(qiáng),因此無(wú)法適用于各種不同類型的網(wǎng)頁(yè)。
[0006]為此,本發(fā)明實(shí)施例提供了如下技術(shù)方案:
[0007]—種從網(wǎng)頁(yè)中提取主要內(nèi)容的方法,包括如下步驟:
[0008]去除待提取網(wǎng)頁(yè)中的無(wú)用標(biāo)簽,獲取內(nèi)容文本;
[0009]將內(nèi)容文本分割為多行;
[0010]根據(jù)連續(xù)多行字符個(gè)數(shù)確定主要內(nèi)容的開始行和結(jié)束行;
[0011 ]將開始行與結(jié)束行之間的文本提取為待提取網(wǎng)頁(yè)的主要內(nèi)容。
[0012]優(yōu)選地,將內(nèi)容文本分割為多行的步驟包括:
[0013]將內(nèi)容文本按照換行標(biāo)簽分割為多行;
[0014]將分割后的總行數(shù)與預(yù)設(shè)閾值比較;
[0015]當(dāng)分割后的總行數(shù)小于預(yù)設(shè)閾值時(shí),則按照段落標(biāo)簽來(lái)分割行。
[0016]優(yōu)選地,在將內(nèi)容文本分割為多行的步驟與根據(jù)連續(xù)多行字符個(gè)數(shù)確定主要內(nèi)容的開始行和結(jié)束行的步驟之間,還包括:
[0017]刪除內(nèi)容文本中的換行標(biāo)簽和段落標(biāo)簽。
[0018]優(yōu)選地,根據(jù)連續(xù)多行字符個(gè)數(shù)確定主要內(nèi)容的開始行和結(jié)束行的步驟包括:
[0019]從內(nèi)容文本的第一行開始統(tǒng)計(jì)緊鄰的預(yù)設(shè)數(shù)量行的字符數(shù);
[0020]當(dāng)其字符數(shù)不小于預(yù)設(shè)值時(shí),判斷該預(yù)設(shè)數(shù)量行的第一行是開始行;
[0021 ]在開始行之后,當(dāng)預(yù)設(shè)數(shù)量的行字符數(shù)小于預(yù)設(shè)值時(shí),判斷該預(yù)設(shè)數(shù)量行的最后一行為結(jié)束行。
[0022]—種從網(wǎng)頁(yè)中提取主要內(nèi)容的裝置,包括:
[0023]內(nèi)容文本獲取單元,用于去除待提取網(wǎng)頁(yè)中的無(wú)用標(biāo)簽,獲取內(nèi)容文本;
[0024]分割單元,用于將內(nèi)容文本分割為多行;
[0025]開始行和結(jié)束行確定單元,用于根據(jù)連續(xù)多行字符個(gè)數(shù)確定主要內(nèi)容的開始行和結(jié)束行;
[0026]主要內(nèi)容提取單元,用于將開始行與結(jié)束行之間的文本提取為待提取網(wǎng)頁(yè)的主要內(nèi)容。
[0027]優(yōu)選地,分割單元包括:
[0028]第一分割子單元,用于將內(nèi)容文本按照換行標(biāo)簽分割為多行;
[0029]比較子單元,用于將分割后的總行數(shù)與預(yù)設(shè)閾值比較;
[0030]第二分割子單元,用于當(dāng)分割后的總行數(shù)小于預(yù)設(shè)閾值時(shí),則按照段落標(biāo)簽來(lái)分割行。
[0031]優(yōu)選地,還包括:
[0032]刪除單元,用于刪除內(nèi)容文本中的換行標(biāo)簽和段落標(biāo)簽。
[0033]優(yōu)選地,開始行和結(jié)束行確定單元包括:
[0034]字符數(shù)統(tǒng)計(jì)子單元,用于從內(nèi)容文本的第一行開始統(tǒng)計(jì)緊鄰的預(yù)設(shè)數(shù)量行的字符數(shù);
[0035]開始行確定子單元,用于當(dāng)其字符數(shù)不小于預(yù)設(shè)值時(shí),判斷該預(yù)設(shè)數(shù)量行的第一行是開始行;
[0036]結(jié)束行確定子單元,用于在開始行之后,當(dāng)預(yù)設(shè)數(shù)量的行字符數(shù)小于預(yù)設(shè)值時(shí),判斷該預(yù)設(shè)數(shù)量行的最后一行為結(jié)束行。
[0037]本發(fā)明技術(shù)方案,具有如下優(yōu)點(diǎn):
[0038]本發(fā)明提供的從網(wǎng)頁(yè)中提取主要內(nèi)容的方法及裝置,打破了網(wǎng)頁(yè)內(nèi)容提取方法中對(duì)數(shù)據(jù)內(nèi)容進(jìn)行復(fù)雜解析的傳統(tǒng),用一種簡(jiǎn)單規(guī)律性的方法進(jìn)行提取,即首先提取網(wǎng)頁(yè)對(duì)應(yīng)的html中的內(nèi)容文本并刪除無(wú)用標(biāo)簽,然后分行,再根據(jù)連續(xù)多行字符數(shù)來(lái)確定主要內(nèi)容,極大的規(guī)避了不同網(wǎng)頁(yè)或者網(wǎng)頁(yè)改版帶來(lái)的提取問(wèn)題,提高了主要內(nèi)容提取的效率。
【附圖說(shuō)明】
[0039]為了更清楚地說(shuō)明本發(fā)明【具體實(shí)施方式】或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)【具體實(shí)施方式】或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施方式,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0040]圖1為本發(fā)明實(shí)施例1中一種從網(wǎng)頁(yè)提取主要內(nèi)容的方法的流程圖;
[0041]圖2為本發(fā)明實(shí)施例1中刪除無(wú)用標(biāo)簽后一個(gè)內(nèi)容文本的示例;
[0042]圖3為本發(fā)明實(shí)施例1中內(nèi)容文本的行分割完成后刪除全部標(biāo)簽后的一個(gè)示例;
[0043]圖4為本發(fā)明實(shí)施例1中一種根據(jù)連續(xù)多行字符個(gè)數(shù)確定主要內(nèi)容的開始行和結(jié)束行的方法流程圖;
[0044]圖5為本發(fā)明實(shí)施例2中一種從網(wǎng)頁(yè)提取主要內(nèi)容的裝置的原理框圖。
【具體實(shí)施方式】
[0045]下面將結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0046]此外,下面所描述的本發(fā)明不同實(shí)施方式中所涉及的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互結(jié)合。
[0047]實(shí)施例1
[0048]如圖1所示,本實(shí)施例提供了一種從網(wǎng)頁(yè)中提取主要內(nèi)容的方法,包括如下步驟:
[0049]S1:去除待提取網(wǎng)頁(yè)中的無(wú)用標(biāo)簽,獲取內(nèi)容文本,該無(wú)用標(biāo)簽不包括換行標(biāo)簽和段落標(biāo)簽;
[0050]S2:將內(nèi)容文本分割為多行;
[0051]S3:根據(jù)連續(xù)多行字符個(gè)數(shù)確定主要內(nèi)容的開始行和結(jié)束行;
[0052]S4:將開始行與結(jié)束行之間的文本提取為待提取網(wǎng)頁(yè)的主要內(nèi)容。
[0053]通過(guò)對(duì)現(xiàn)有的主流網(wǎng)站深入的研究和對(duì)比,并且結(jié)合網(wǎng)站設(shè)計(jì)的一般規(guī)律、設(shè)計(jì)思想和設(shè)計(jì)風(fēng)格,發(fā)現(xiàn)網(wǎng)站的內(nèi)容的展現(xiàn)是有跡可循的。而本實(shí)施例的方法是在這些研究之上,總結(jié)出來(lái)的適用于大部分詳細(xì)頁(yè)面網(wǎng)頁(yè)提取主要內(nèi)容的方法。本方法打破了網(wǎng)頁(yè)內(nèi)容提取方法中對(duì)數(shù)據(jù)內(nèi)容進(jìn)行復(fù)雜解析的傳統(tǒng),用一種簡(jiǎn)單規(guī)律性的方法進(jìn)行提取,極大的規(guī)避了不同網(wǎng)頁(yè)或者網(wǎng)頁(yè)改版帶來(lái)的提取問(wèn)題,提高了主要內(nèi)容提取的效率。
[0054]具體地,上述步驟SI中,待提取網(wǎng)頁(yè)可以是根據(jù)用戶輸入的詳細(xì)頁(yè)面地址抓取的,例如可以是某一新聞網(wǎng)頁(yè)的詳細(xì)鏈接url,訪問(wèn)該頁(yè)面鏈接url,獲取對(duì)應(yīng)的html并解析該html,然后抓取頁(yè)面中的〈body〉部分,并使用正則表達(dá)式去掉除換行標(biāo)簽和段落標(biāo)簽外所有的SCript、Style標(biāo)簽及其內(nèi)容后獲取內(nèi)容文本,例如,圖2所示的內(nèi)容文本。
[0055]具體地,上述步驟S2中,即將內(nèi)容文本分割為多行的步驟包括:
[0056]首先,將內(nèi)容文本按照換行標(biāo)簽分割為多行;
[0057]然后,將分割后的總行數(shù)與預(yù)設(shè)閾值比較;
[0058]最后,當(dāng)分割后的總行數(shù)小于預(yù)設(shè)閾值時(shí),則按照段落標(biāo)簽來(lái)分
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
美姑县| 泰顺县| 连江县| 河北区| 金秀| 如东县| 陵水| 娱乐| 辛集市| 浦城县| 徐汇区| 临朐县| 吉首市| 莫力| 云和县| 确山县| 连平县| 南川市| 鹤壁市| 鄄城县| 芦溪县| 六枝特区| 客服| 定安县| 麻城市| 秦安县| 宜阳县| 夏邑县| 青阳县| 甘孜县| 巧家县| 昂仁县| 吴桥县| 同江市| 萝北县| 广河县| 通化县| 利川市| 柘城县| 四会市| 沽源县|