欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)頁(yè)正文抽取方法及裝置的制造方法

文檔序號(hào):9432622閱讀:286來(lái)源:國(guó)知局
網(wǎng)頁(yè)正文抽取方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及計(jì)算機(jī)領(lǐng)域,尤其設(shè)及一種網(wǎng)頁(yè)正文抽取方法及裝置。
【背景技術(shù)】
[0002] 隨著因特網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)上的信息呈爆炸式的增長(zhǎng),一般用戶會(huì)通過(guò)網(wǎng)頁(yè)瀏 覽各類信息。而網(wǎng)頁(yè)上的文字主要有兩種,包括網(wǎng)頁(yè)所要表達(dá)的正文信息和無(wú)關(guān)正文的噪 聲信息,噪聲信息包括網(wǎng)站導(dǎo)航、廣告、版權(quán)聲明、相關(guān)鏈接等各類噪聲信息,網(wǎng)頁(yè)所要表達(dá) 的正文信息被包含在噪聲信息中,而對(duì)正文抽取就是要將網(wǎng)頁(yè)的正文信息準(zhǔn)確、高效地提 取出來(lái)。
[0003] 而現(xiàn)有技術(shù)中往往采用從HTML網(wǎng)頁(yè)中解析出D0M值ocument化ject Model,文檔 對(duì)象模型)樹(shù),而對(duì)不同類別和不同欄目的網(wǎng)頁(yè)做基于DOM樹(shù)結(jié)構(gòu)的網(wǎng)頁(yè)信息抽取費(fèi)時(shí)費(fèi) 力。
[0004] 因此,針對(duì)網(wǎng)絡(luò)中不同來(lái)源、結(jié)構(gòu),不同復(fù)雜度和規(guī)范化程度的網(wǎng)頁(yè),需要提出一 種新的具有通用性的網(wǎng)頁(yè)正文抽取方法,W準(zhǔn)確地進(jìn)行正文抽取。

【發(fā)明內(nèi)容】
陽(yáng)〇化]本發(fā)明旨在至少克服上述缺陷之一提供一種網(wǎng)頁(yè)正文抽取方法及裝置,能夠快速 準(zhǔn)確的進(jìn)行正文抽取。
[0006] 為達(dá)到上述目的,本發(fā)明的技術(shù)方案具體是運(yùn)樣實(shí)現(xiàn)的:
[0007] 本發(fā)明的一個(gè)方面提供了一種網(wǎng)頁(yè)正文抽取方法,包括:提取網(wǎng)頁(yè)HTML源碼中的 title標(biāo)簽中的文本,W及h標(biāo)簽中的文本;根據(jù)所述title標(biāo)簽中的文本W(wǎng)及所述h標(biāo) 簽中的文本的文本相似度確定正文標(biāo)題;提取網(wǎng)頁(yè)HTML源碼中的body標(biāo)簽中的標(biāo)簽源 碼;對(duì)所述body標(biāo)簽中的標(biāo)簽源碼進(jìn)行第一抽取處理,獲取第一網(wǎng)頁(yè)正文,其中:所述第一 抽取處理至少包括利用所述body標(biāo)簽中的標(biāo)簽源碼中每一行的行文本密度、行文本與所 述正文標(biāo)題的文本相似度W及行文本的中文字?jǐn)?shù)進(jìn)行去噪處理;確定行塊分布函數(shù),并根 據(jù)所述行塊分布函數(shù)抽取文本塊;對(duì)所述文本塊進(jìn)行第二抽取處理,獲取第二網(wǎng)頁(yè)正文,其 中:所述第二抽取處理至少包括利用所述文本塊與所述正文標(biāo)題的塊文本相似度進(jìn)行過(guò)濾 處理。
[0008] 另外,所述根據(jù)所述title標(biāo)簽中的文本W(wǎng)及所述h標(biāo)簽中的文本的文本相似度 確定正文標(biāo)題包括:計(jì)算所述title標(biāo)簽中的文本W(wǎng)及所述h標(biāo)簽中的文本的文本相似度, 獲得第一計(jì)算結(jié)果;如果所述第一計(jì)算結(jié)果大于等于第一預(yù)設(shè)闊值,則確定所述title中 的文本作為所述正文標(biāo)題;如果所述第一計(jì)算結(jié)果小于所述第一預(yù)設(shè)闊值,則確定所述h 標(biāo)簽中的文本作為所述正文標(biāo)題。
[0009] 另外,所述利用所述body標(biāo)簽中的標(biāo)簽源碼中每一行的行文本密度、行文本與所 述正文標(biāo)題的文本相似度W及行文本的中文字?jǐn)?shù)進(jìn)行去噪處理包括:對(duì)所述body標(biāo)簽中 的標(biāo)簽源碼中每一行的行文本密度、行文本與所述正文標(biāo)題的文本相似度W及行文本的中 文字?jǐn)?shù)進(jìn)行融合計(jì)算,獲得第二計(jì)算結(jié)果;根據(jù)所述第二計(jì)算結(jié)果判斷當(dāng)前信息是否為噪 聲,進(jìn)行去噪處理。
[0010]另外,所述第一抽取處理在利用所述body標(biāo)簽中的標(biāo)簽源碼中每一行的行文本 密度、行文本與所述正文標(biāo)題的文本相似度W及行文本的中文字?jǐn)?shù)進(jìn)行去噪處理之后,還 包括W下至少之一:去除HTML編碼處理、去除化vaScript腳本處理和去除特殊字符處理。
[0011] 另外,所述確定行塊分布函數(shù),并根據(jù)所述行塊分布函數(shù)抽取文本塊包括:按照固 定文本塊的塊長(zhǎng)對(duì)所述第一網(wǎng)頁(yè)正文進(jìn)行分塊,計(jì)算每個(gè)行塊中文本的字符數(shù)后構(gòu)造出行 塊分布函數(shù);確定驟升點(diǎn)和驟降點(diǎn),抽取位于所述驟升點(diǎn)和所述驟降點(diǎn)內(nèi)的文本塊。
[0012] 另外,所述根據(jù)所述行塊分布函數(shù)抽取文本塊包括:記錄第一個(gè)加入抽取結(jié)果的 文本塊的編號(hào);計(jì)算當(dāng)前文本塊與所述第一個(gè)加入抽取結(jié)果的文本塊之間的距離,獲得第 =計(jì)算結(jié)果;如果所述第=計(jì)算結(jié)果大于等于第=預(yù)設(shè)闊值,則判斷當(dāng)前文本塊為噪聲,進(jìn) 行去噪處理。
[0013]另外,所述利用所述文本塊與所述正文標(biāo)題的塊文本相似度進(jìn)行過(guò)濾處理包括: 對(duì)位于所述驟升點(diǎn)和所述驟降點(diǎn)內(nèi)的文本塊與所述正文標(biāo)題的塊文本相似度,獲得第四計(jì) 算結(jié)果;如果所述第四計(jì)算結(jié)果小于第四預(yù)設(shè)闊值,則將當(dāng)前文本塊作為噪聲,進(jìn)行去噪處 理。
[0014]另外,所述利用所述文本塊與所述正文標(biāo)題的塊文本相似度進(jìn)行過(guò)濾處理還包 括:對(duì)所述文本塊進(jìn)行網(wǎng)頁(yè)版權(quán)噪聲過(guò)濾。
[0015]另外,所述第二抽取處理在利用所述文本塊與所述正文標(biāo)題的塊文本相似度進(jìn)行 過(guò)濾處理之后,還包括:計(jì)算經(jīng)過(guò)所述利用所述文本塊與所述正文標(biāo)題的塊文本相似度進(jìn) 行過(guò)濾處理之后的網(wǎng)頁(yè)正文中的每一行與所述正文標(biāo)題的行文本相似度,并計(jì)算行平均文 本相似度,獲得第五計(jì)算結(jié)果;如果所述第五計(jì)算結(jié)果小于第五預(yù)設(shè)闊值,則根據(jù)所述行文 本相似度對(duì)所述每一行進(jìn)行行過(guò)濾處理。
[0016]另外,所述文本相似度可W通過(guò)如下之一進(jìn)行計(jì)算:根據(jù)字或者詞語(yǔ)采用編輯距 離進(jìn)行計(jì)算;根據(jù)字或者詞語(yǔ)采用余弦距離進(jìn)行計(jì)算。
[0017]本發(fā)明另一方面提供了一種網(wǎng)頁(yè)正文抽取裝置,包括:提取模塊,用于提取網(wǎng)頁(yè)HTML源碼中的title標(biāo)簽中的文本,W及h標(biāo)簽中的文本;確定模塊,用于根據(jù)所述title 標(biāo)簽中的文本W(wǎng)及所述h標(biāo)簽中的文本的文本相似度確定正文標(biāo)題;所述提取模塊,還用 于提取網(wǎng)頁(yè)HTML源碼中的body標(biāo)簽中的標(biāo)簽源碼;抽取模塊,用于對(duì)所述body標(biāo)簽中的 標(biāo)簽源碼進(jìn)行第一抽取處理,獲取第一網(wǎng)頁(yè)正文,其中:所述第一抽取處理至少包括利用所 述body標(biāo)簽中的標(biāo)簽源碼中每一行的行文本密度、行文本與所述正文標(biāo)題的文本相似度 W及行文本的中文字?jǐn)?shù)進(jìn)行去噪處理;所述確定模塊,還用于確定行塊分布函數(shù);所述抽 取模塊,還用于根據(jù)所述行塊分布函數(shù)抽取文本塊;對(duì)所述文本塊進(jìn)行第二抽取處理,獲取 第二網(wǎng)頁(yè)正文,其中:所述第二抽取處理至少包括利用所述文本塊與所述正文標(biāo)題的塊文 本相似度進(jìn)行過(guò)濾處理。
[0018]另外,所述確定模塊,通過(guò)如下方式根據(jù)所述title標(biāo)簽中的文本W(wǎng)及所述h標(biāo)簽 中的文本的文本相似度確定正文計(jì)算所述title標(biāo)簽中的文本W(wǎng)及所述h標(biāo)簽中的 文本的文本相似度,獲得第一計(jì)算結(jié)果;如果所述第一計(jì)算結(jié)果大于等于第一預(yù)設(shè)闊值,貝U 確定所述title中的文本作為所述正文標(biāo)題;如果所述第一計(jì)算結(jié)果小于所述第一預(yù)設(shè)闊 值,則確定所述h標(biāo)簽中的文本作為所述正文標(biāo)題。
[0019] 另外,所述抽取模塊,通過(guò)如下方式利用所述body標(biāo)簽中的標(biāo)簽源碼中每一行的 行文本密度、行文本與所述正文標(biāo)題的文本相似度W及行文本的中文字?jǐn)?shù)進(jìn)行去噪處理: 對(duì)所述body標(biāo)簽中的標(biāo)簽源碼中每一行的行文本密度、行文本與所述正文標(biāo)題的文本相 似度W及行文本的中文字?jǐn)?shù)進(jìn)行融合計(jì)算,獲得第二計(jì)算結(jié)果;根據(jù)所述第二計(jì)算結(jié)果判 斷當(dāng)前信息為噪聲,進(jìn)行去噪處理。
[0020] 另外,所述抽取模塊,還用于在在利用所述body標(biāo)簽中的標(biāo)簽源碼中每一行的行 文本密度、行文本與所述正文標(biāo)題的文本相似度W及行文本的中文字?jǐn)?shù)進(jìn)行去噪處理之 后,進(jìn)行W下至少之一的處理:去除HTML編碼處理、去除化vaScript腳本處理和去除特殊 字符處理。
[0021] 另外,所述確定模塊,用于通過(guò)如下方式確定行塊分布函數(shù):按照固定文本塊的塊 長(zhǎng)對(duì)所述第一網(wǎng)頁(yè)正文進(jìn)行分塊,計(jì)算每個(gè)行塊中文本的字符數(shù)后構(gòu)造出行塊分布函數(shù); 確定驟升點(diǎn)和驟降點(diǎn);所述抽取模塊,用于通過(guò)如下方式根據(jù)所述行塊分布函數(shù)抽取文本 塊:抽取位于所述驟升點(diǎn)和所述驟降點(diǎn)內(nèi)的文本塊。
[0022] 另外,所述抽取模塊,通過(guò)如下方式根據(jù)所述行塊分布函數(shù)抽取文本塊:記錄第一 個(gè)加入抽取結(jié)果的文本塊的編號(hào);計(jì)算當(dāng)前文本塊與所述第一個(gè)加入抽取結(jié)果的文本塊之 間的距離,獲得第S計(jì)算結(jié)果;如果所述第S計(jì)算結(jié)果大于等于第S預(yù)設(shè)闊值,則判斷當(dāng)前 文本塊為噪聲,進(jìn)行去噪處理。
[0023] 另外,所述抽取模塊,通過(guò)如下方式利用所述文本塊與所述正文標(biāo)題的文本相似 度進(jìn)行過(guò)濾處理:對(duì)位于所述驟升點(diǎn)和所述驟降點(diǎn)內(nèi)的文本塊與所述正文標(biāo)題的塊文本相 似度,獲得第四計(jì)算結(jié)果;如果所述第四計(jì)算結(jié)果小于第四預(yù)設(shè)闊值,則將當(dāng)前文本塊作為 噪聲,進(jìn)行去噪處理。
[0024] 另外,所述抽取模塊還通過(guò)如下方式利用所述文本塊與所述正文標(biāo)題的塊文本相 似度進(jìn)行過(guò)濾處理:對(duì)所述文本塊進(jìn)行網(wǎng)頁(yè)版權(quán)噪聲過(guò)濾。
[0025] 另外,所述抽取模塊還用于在利用所述文本塊與所述正文標(biāo)題的塊文本相似度進(jìn) 行過(guò)濾處理之后,進(jìn)行W下的處理:計(jì)算經(jīng)過(guò)所述利用所述文本塊與所述正文標(biāo)題的塊文 本相似度進(jìn)行過(guò)濾處理之后的網(wǎng)頁(yè)正文中的每一行與所述正文標(biāo)題的行文本相似度,并計(jì) 算行平均文本相似度,獲得第五計(jì)算結(jié)果;如果所述第五計(jì)算結(jié)果小于第五預(yù)設(shè)闊值,則根 據(jù)所述行文本相似度
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
沅陵县| 开封县| 宜兰市| 年辖:市辖区| 东乡族自治县| 邵阳市| 珠海市| 万山特区| 鲁山县| 泉州市| 清原| 出国| 兴宁市| 安塞县| 和龙市| 海阳市| 南宁市| 广州市| 成都市| 广河县| 诸城市| 甘洛县| 磴口县| 永平县| 广南县| 上杭县| 聊城市| 万年县| 古丈县| 岳阳市| 巴林右旗| 太湖县| 新巴尔虎右旗| 伊川县| 潮州市| 穆棱市| 隆化县| 贵德县| 保山市| 保定市| 贵溪市|