欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)頁數(shù)據(jù)分析處理方法與流程

文檔序號:12667116閱讀:來源:國知局

技術(shù)特征:

1.一種網(wǎng)頁數(shù)據(jù)分析處理方法,其特征在于:該方法基于一網(wǎng)頁數(shù)據(jù)服務(wù)平臺實(shí)現(xiàn),所述網(wǎng)頁數(shù)據(jù)服務(wù)平臺包括客戶端、內(nèi)容服務(wù)器和分詞云服務(wù)器,所述內(nèi)容服務(wù)器上安裝有網(wǎng)頁抓取系統(tǒng)、內(nèi)容提取系統(tǒng)、內(nèi)容分析系統(tǒng)和數(shù)據(jù)庫,所述方法具體實(shí)現(xiàn)步驟如下:

S1、網(wǎng)頁抓取

所述網(wǎng)頁抓取系統(tǒng)獲取爬取任務(wù),將待爬取 URL 加入爬蟲隊(duì)列,抓取網(wǎng)頁頁面;

S2、內(nèi)容提取

所述內(nèi)容提取系統(tǒng)基于閱讀習(xí)慣對步驟S1抓取的網(wǎng)頁頁面進(jìn)行分割,生成多個區(qū)塊,所述多個區(qū)塊包括主題塊和噪音塊,剔除所述噪音塊,提取主題塊的核心文本數(shù)據(jù);

S3、中文分詞

向所述分詞云服務(wù)器發(fā)送分詞任務(wù)請求,并提交步驟S2提取的核心文本數(shù)據(jù),分詞云服務(wù)器對核心文本數(shù)據(jù)進(jìn)行中文分詞處理,并將分詞結(jié)果發(fā)送給所述內(nèi)容分析系統(tǒng);

S4、內(nèi)容分析

預(yù)先建立實(shí)體關(guān)系數(shù)據(jù)集,所述實(shí)體關(guān)系數(shù)據(jù)集包含一組命名實(shí)體以及與每個命名實(shí)體對應(yīng)的特征信息知識庫,內(nèi)容分析系統(tǒng)針提取所述步驟S3得到的分詞結(jié)果的關(guān)鍵詞,得到關(guān)鍵詞數(shù)據(jù)集,針對每個關(guān)鍵詞在特征信息知識庫搜索與該關(guān)鍵詞對應(yīng)的匹配結(jié)果,將該匹配結(jié)果對應(yīng)的命名實(shí)體作為屬性索引項(xiàng)添加到結(jié)構(gòu)化數(shù)據(jù)表,將該關(guān)鍵詞作為屬性值添加到結(jié)構(gòu)化數(shù)據(jù)表,遍歷關(guān)鍵詞數(shù)據(jù)集中的所有關(guān)鍵詞,得到結(jié)構(gòu)化數(shù)據(jù)集,基于結(jié)構(gòu)化數(shù)據(jù)集對核心文本數(shù)據(jù)及對應(yīng)的網(wǎng)頁頁面進(jìn)行分類,并存儲到數(shù)據(jù)庫;

S5、結(jié)果呈現(xiàn)

客戶端從數(shù)據(jù)庫中調(diào)取數(shù)據(jù)結(jié)果,并呈現(xiàn)給用戶。

2.根據(jù)權(quán)利要求1所述的一種網(wǎng)頁數(shù)據(jù)分析處理方法,其特征在于:所述步驟S2具體實(shí)現(xiàn)步驟如下:

S21、內(nèi)容提取系統(tǒng)針對步驟S1抓取的網(wǎng)頁頁面生成初始 DOM 樹;

S22、清理初始DOM 樹中無用節(jié)點(diǎn),構(gòu)建目標(biāo) DOM 樹;

S23、利用基于視覺信息的網(wǎng)頁分塊算法對網(wǎng)頁頁面進(jìn)行分割,生成多個區(qū)塊,所述區(qū)塊攜帶有語義屬性,所述語義屬性包括鏈接個數(shù)、鏈接長度及文本長度;

S24、根據(jù)網(wǎng)頁頁面的鏈接數(shù)量和鏈接密度判斷網(wǎng)頁類型,若網(wǎng)頁類型為導(dǎo)航頁,則中止,若網(wǎng)頁類型為主題頁,則執(zhí)行步驟 S25;

S25、根據(jù)各個區(qū)塊的語義屬性,對各個區(qū)塊進(jìn)行分類,分為主題塊及噪音塊;

S26、剔除所述噪音塊,提取主題塊的核心文本數(shù)據(jù)。

3.根據(jù)權(quán)利要求2所述的一種網(wǎng)頁數(shù)據(jù)分析處理方法,其特征在于:所述步驟S22中的無用節(jié)點(diǎn)為初始DOM樹種與內(nèi)容提取無關(guān)的節(jié)點(diǎn),其包括腳本、樣式控制信息、注釋及空格文本節(jié)點(diǎn)。

4.根據(jù)權(quán)利要求1至3任一所述的一種網(wǎng)頁數(shù)據(jù)分析處理方法,其特征在于:所述內(nèi)容服務(wù)器上安裝有第一壓縮/解壓縮系統(tǒng),所述分詞云服務(wù)器上安裝有第二壓縮/解壓縮系統(tǒng)以及中文分詞系統(tǒng),第一壓縮/解壓縮系統(tǒng)和第二壓縮/解壓縮系統(tǒng)均具有壓縮詞典,所述第一壓縮/解壓縮系統(tǒng)還包括第一壓縮模塊、第一解壓縮模塊及詞典升級模塊,所述第二壓縮/解壓縮系統(tǒng)還包括第二壓縮模塊、第二解壓縮模塊及詞典更新模塊;

所述步驟 S3 具體實(shí)現(xiàn)步驟如下:

S31、內(nèi)容服務(wù)器向分詞云服務(wù)器發(fā)送分詞任務(wù)請求,并利用第一壓縮模塊基于壓縮詞典對所述核心文本數(shù)據(jù)進(jìn)行數(shù)據(jù)壓縮處理,發(fā)送給分詞云服務(wù)器;

S32、分詞云服務(wù)器對分詞任務(wù)請求進(jìn)行安全驗(yàn)證,驗(yàn)證通過后利用第二解壓縮模塊進(jìn)行數(shù)據(jù)解壓縮處理,還原出核心文本數(shù)據(jù);

S33、中文分詞系統(tǒng)對核心文本數(shù)據(jù)進(jìn)行中文分詞處理,生成分詞結(jié)果;

S34、利用第二壓縮模塊基于壓縮詞典對分詞結(jié)果進(jìn)行數(shù)據(jù)壓縮處理,發(fā)送給內(nèi)容服務(wù)器,同時將分詞結(jié)果存儲在分詞云服務(wù)器,對第二壓縮/解壓縮系統(tǒng)的壓縮詞典進(jìn)行更新;

S35、內(nèi)容服務(wù)器利用第一解壓縮模塊進(jìn)行數(shù)據(jù)解壓縮處理,還原出分詞結(jié)果,同時與分詞云服務(wù)器進(jìn)行通信,對第一壓縮/解壓縮系統(tǒng)的壓縮詞典進(jìn)行升級。

5.根據(jù)權(quán)利要求4所述的一種網(wǎng)頁數(shù)據(jù)分析處理方法,其特征在于:所述步驟 S33中的中文分詞處理通過以下步驟實(shí)現(xiàn):

漢轉(zhuǎn)音剔除錯誤字詞;

通過同義匹配、詞性確認(rèn)、語法切割、固定詞匹配、標(biāo)點(diǎn)規(guī)范、縮進(jìn)規(guī)范、冗余感知及網(wǎng)絡(luò)修正進(jìn)行分詞處理。

6.根據(jù)權(quán)利要求1所述的一種網(wǎng)頁數(shù)據(jù)分析處理方法,其特征在于:所述步驟S4還包括:

計算每個關(guān)鍵詞在核心文本數(shù)據(jù)出現(xiàn)的頻度,找出未與特征信息知識庫實(shí)現(xiàn)匹配且頻度高于預(yù)設(shè)頻度閾值的關(guān)鍵詞,并將該關(guān)鍵詞計入候選詞庫,存儲到數(shù)據(jù)庫中。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
鹿泉市| 雷山县| 揭西县| 桃源县| 腾冲县| 灵寿县| 广昌县| 石林| 全州县| 蓝山县| 信宜市| 屏山县| 牡丹江市| 克东县| 巴中市| 定远县| 涿州市| 永济市| 台中市| 江川县| 清苑县| 原平市| 海淀区| 大连市| 清河县| 兴隆县| 凭祥市| 溧水县| 河间市| 福建省| 隆化县| 越西县| 东乌珠穆沁旗| 阜阳市| 佛坪县| 宜阳县| 云霄县| 永吉县| 柳林县| 思南县| 保靖县|