本發(fā)明涉及互聯(lián)網數(shù)據(jù)挖掘分析技術領域,尤其涉及一種網頁數(shù)據(jù)分析處理方法。
背景技術:
目前,互聯(lián)網充斥著大量各式各樣的信息,人們處于數(shù)據(jù)龐大、信息海 量的時代。這些大量數(shù)據(jù)需要通過一定的發(fā)現(xiàn)方法,才能實現(xiàn)對企業(yè)或者社 會發(fā)展有意義的信息進行深度挖掘。
以往的信息挖掘的方式一般通過信息檢索或者數(shù)理統(tǒng)計的方法進行,比 如普通個人用戶使用的百度、谷歌等搜索引擎,雖然可以檢索到詞條相關內 容,但是絕大多數(shù)都是無用信息,在這樣大量的數(shù)據(jù)條件下很難得到所希望 的精準結果。而其深度挖掘和分析的功能往往都是面向大型企業(yè)或事業(yè)單位, 相對于廣大中小企業(yè)或普通個人用戶來說成本及其昂貴。因此迫切需要面向 廣大中小企業(yè)和普通個人用戶的低成本、定向化、精準化的大數(shù)據(jù)分析平臺, 為其提供精準的情報搜集、輿情分析及決策服務,使得廣大中小企業(yè)能夠在 大數(shù)據(jù)時代的機遇與挑戰(zhàn)中充分掘取更多商業(yè)價值,提升企業(yè)核心競爭力。
技術實現(xiàn)要素:
本發(fā)明的目的在于提供一種網頁數(shù)據(jù)分析處理方法,該方法具有低成本、定向化、精準化的特點。
為實現(xiàn)上述目的,本發(fā)明的技術方案是:一種網頁數(shù)據(jù)分析處理方法,該方法基于一網頁數(shù)據(jù)服務平臺實現(xiàn),所述網頁數(shù)據(jù)服務平臺包括客戶端、內容服務器和分詞云服務器,所述內容服務器上安裝有網頁抓取系統(tǒng)、內容提取系統(tǒng)、內容分析系統(tǒng)和數(shù)據(jù)庫,所述方法具體實現(xiàn)步驟如下:
S1、網頁抓取
所述網頁抓取系統(tǒng)獲取爬取任務,將待爬取 URL 加入爬蟲隊列,抓取網頁頁面;
S2、內容提取
所述內容提取系統(tǒng)基于閱讀習慣對步驟S1抓取的網頁頁面進行分割,生成多個區(qū)塊,所述多個區(qū)塊包括主題塊和噪音塊,剔除所述噪音塊,提取主題塊的核心文本數(shù)據(jù);
S3、中文分詞
向所述分詞云服務器發(fā)送分詞任務請求,并提交步驟S2提取的核心文本數(shù)據(jù),分詞云服務器對核心文本數(shù)據(jù)進行中文分詞處理,并將分詞結果發(fā)送給所述內容分析系統(tǒng);
S4、內容分析
預先建立實體關系數(shù)據(jù)集,所述實體關系數(shù)據(jù)集包含一組命名實體以及與每個命名實體對應的特征信息知識庫,內容分析系統(tǒng)針提取所述步驟S3得到的分詞結果的關鍵詞,得到關鍵詞數(shù)據(jù)集,針對每個關鍵詞在特征信息知識庫搜索與該關鍵詞對應的匹配結果,將該匹配結果對應的命名實體作為屬性索引項添加到結構化數(shù)據(jù)表,將該關鍵詞作為屬性值添加到結構化數(shù)據(jù)表,遍歷關鍵詞數(shù)據(jù)集中的所有關鍵詞,得到結構化數(shù)據(jù)集,基于結構化數(shù)據(jù)集對核心文本數(shù)據(jù)及對應的網頁頁面進行分類,并存儲到數(shù)據(jù)庫;
S5、結果呈現(xiàn)
客戶端從數(shù)據(jù)庫中調取數(shù)據(jù)結果,并呈現(xiàn)給用戶。
在本發(fā)明一實施例中,所述步驟S2具體實現(xiàn)步驟如下:
S21、內容提取系統(tǒng)針對步驟S1抓取的網頁頁面生成初始 DOM 樹;
S22、清理初始DOM 樹中無用節(jié)點,構建目標 DOM 樹;
S23、利用基于視覺信息的網頁分塊算法對網頁頁面進行分割,生成多個區(qū)塊,所述區(qū)塊攜帶有語義屬性,所述語義屬性包括鏈接個數(shù)、鏈接長度及文本長度;
S24、根據(jù)網頁頁面的鏈接數(shù)量和鏈接密度判斷網頁類型,若網頁類型為導航頁,則中止,若網頁類型為主題頁,則執(zhí)行步驟 S25;
S25、根據(jù)各個區(qū)塊的語義屬性,對各個區(qū)塊進行分類,分為主題塊及噪音塊;
S26、剔除所述噪音塊,提取主題塊的核心文本數(shù)據(jù)。
在本發(fā)明一實施例中,所述步驟S22中的無用節(jié)點為初始DOM樹種與內容提取無關的節(jié)點,其包括腳本、樣式控制信息、注釋及空格文本節(jié)點。
在本發(fā)明一實施例中,所述內容服務器上安裝有第一壓縮/解壓縮系統(tǒng),所述分詞云服務器上安裝有第二壓縮/解壓縮系統(tǒng)以及中文分詞系統(tǒng),第一壓縮/解壓縮系統(tǒng)和第二壓縮/解壓縮系統(tǒng)均具有壓縮詞典,所述第一壓縮/解壓縮系統(tǒng)還包括第一壓縮模塊、第一解壓縮模塊及詞典升級模塊,所述第二壓縮/解壓縮系統(tǒng)還包括第二壓縮模塊、第二解壓縮模塊及詞典更新模塊;
所述步驟 S3 具體實現(xiàn)步驟如下:
S31、內容服務器向分詞云服務器發(fā)送分詞任務請求,并利用第一壓縮模塊基于壓縮詞典對所述核心文本數(shù)據(jù)進行數(shù)據(jù)壓縮處理,發(fā)送給分詞云服務器;
S32、分詞云服務器對分詞任務請求進行安全驗證,驗證通過后利用第二解壓縮模塊進行數(shù)據(jù)解壓縮處理,還原出核心文本數(shù)據(jù);
S33、中文分詞系統(tǒng)對核心文本數(shù)據(jù)進行中文分詞處理,生成分詞結果;
S34、利用第二壓縮模塊基于壓縮詞典對分詞結果進行數(shù)據(jù)壓縮處理,發(fā)送給內容服務器,同時將分詞結果存儲在分詞云服務器,對第二壓縮/解壓縮系統(tǒng)的壓縮詞典進行更新;
S35、內容服務器利用第一解壓縮模塊進行數(shù)據(jù)解壓縮處理,還原出分詞結果,同時與分詞云服務器進行通信,對第一壓縮/解壓縮系統(tǒng)的壓縮詞典進行升級。
在本發(fā)明一實施例中,所述步驟 S33中的中文分詞處理通過以下步驟實現(xiàn):
漢轉音剔除錯誤字詞;
通過同義匹配、詞性確認、語法切割、固定詞匹配、標點規(guī)范、縮進規(guī)范、冗余感知及網絡修正進行分詞處理。
在本發(fā)明一實施例中,所述步驟S4還包括:
計算每個關鍵詞在核心文本數(shù)據(jù)出現(xiàn)的頻度,找出未與特征信息知識庫實現(xiàn)匹配且頻度高于預設頻度閾值的關鍵詞,并將該關鍵詞計入候選詞庫,存儲到數(shù)據(jù)庫中。
相較于現(xiàn)有技術,本發(fā)明具有以下有益效果:
1、本發(fā)明采用基于閱讀習慣的網頁內容提取技術,能夠快速識別出網頁 的主題內容并進行提取,采用云分詞技術實現(xiàn)高效中文分詞,為大數(shù)據(jù)分析 提供了基礎保障,用戶無需投入軟硬件資源,能夠滿足中小企業(yè)和普通個人 用戶的大數(shù)據(jù)分析服務的低成本、定向化要求;
2、本發(fā)明基于關系抽取技術來實現(xiàn)網頁內容分析和網頁分類,通過針對 不同行業(yè)和需求設定實體關系數(shù)據(jù)集,可實現(xiàn)數(shù)據(jù)分析的精準性;
3、本發(fā)明采用云分詞技術進行中文分詞處理的過程中,通過配備壓縮詞 典及相應的壓縮、解壓縮模塊,可較小分詞數(shù)據(jù)上傳、回傳的數(shù)量,提升了 中文分詞的效率,壓縮詞典可進行更新升級(自動或定時),進一步確保了 分詞數(shù)據(jù)的壓縮效果。
附圖說明
圖 1 為本發(fā)明網頁數(shù)據(jù)服務平臺的結構示意圖;
圖 2 為本發(fā)明的工作流程圖。
具體實施方式
下面結合附圖,對本發(fā)明的技術方案進行具體說明。
本發(fā)明的一種網頁數(shù)據(jù)分析處理方法,該方法基于一網頁數(shù)據(jù)服務平臺實現(xiàn),所述網頁數(shù)據(jù)服務平臺包括客戶端、內容服務器和分詞云服務器,所述內容服務器上安裝有網頁抓取系統(tǒng)、內容提取系統(tǒng)、內容分析系統(tǒng)和數(shù)據(jù)庫,所述方法具體實現(xiàn)步驟如下:
S1、網頁抓取
所述網頁抓取系統(tǒng)獲取爬取任務,將待爬取 URL 加入爬蟲隊列,抓取網頁頁面;
S2、內容提取
所述內容提取系統(tǒng)基于閱讀習慣對步驟S1抓取的網頁頁面進行分割,生成多個區(qū)塊,所述多個區(qū)塊包括主題塊和噪音塊,剔除所述噪音塊,提取主題塊的核心文本數(shù)據(jù);
S3、中文分詞
向所述分詞云服務器發(fā)送分詞任務請求,并提交步驟S2提取的核心文本數(shù)據(jù),分詞云服務器對核心文本數(shù)據(jù)進行中文分詞處理,并將分詞結果發(fā)送給所述內容分析系統(tǒng);
S4、內容分析
預先建立實體關系數(shù)據(jù)集,所述實體關系數(shù)據(jù)集包含一組命名實體以及與每個命名實體對應的特征信息知識庫,內容分析系統(tǒng)針提取所述步驟S3得到的分詞結果的關鍵詞,得到關鍵詞數(shù)據(jù)集,針對每個關鍵詞在特征信息知識庫搜索與該關鍵詞對應的匹配結果,將該匹配結果對應的命名實體作為屬性索引項添加到結構化數(shù)據(jù)表,將該關鍵詞作為屬性值添加到結構化數(shù)據(jù)表,遍歷關鍵詞數(shù)據(jù)集中的所有關鍵詞,得到結構化數(shù)據(jù)集,基于結構化數(shù)據(jù)集對核心文本數(shù)據(jù)及對應的網頁頁面進行分類,并存儲到數(shù)據(jù)庫;
S5、結果呈現(xiàn)
客戶端從數(shù)據(jù)庫中調取數(shù)據(jù)結果,并呈現(xiàn)給用戶。
以下為本發(fā)明的具體實施過程。
請參閱圖 1 和圖 2,本發(fā)明公開了一種網頁數(shù)據(jù)分析處理方法,基于網頁數(shù)據(jù)服務平臺實現(xiàn),網頁數(shù)據(jù)服務平臺包括客戶端 10、內容服務器 20 及分詞 云服務器 30,內容服務器 20 上安裝有網頁抓取系統(tǒng) 21、內容提取系統(tǒng) 22、 內容分析系統(tǒng) 23 及數(shù)據(jù)庫 24,該方法包括以下步驟:
S1、網頁抓取
網頁抓取系統(tǒng) 21 獲取爬取任務,將待爬取 URL 加入爬蟲隊列,抓取網頁頁面;
S2、內容提取
內容提取系統(tǒng) 22 基于閱讀習慣對網頁頁面進行分割,生成多個區(qū)塊,多個區(qū)塊包括主題塊及噪音塊,剔除噪音塊,提取主題塊的核心文本數(shù)據(jù)。步驟 S2 具體包括以下分步驟:
S21、內容提取系統(tǒng) 22 針對網頁頁面生成初始 DOM 樹。
S22、清理初始 DOM 樹中無用節(jié)點,構建目標 DOM 樹。無用節(jié)點為初始 DOM 樹中與內容提取無關的節(jié)點,其包括腳本、樣式控制信息、注釋及空格文本節(jié)點。
S23、利用基于視覺信息的網頁分塊算法(VIPS) 對網頁頁面進行分割,生成多個區(qū)塊,區(qū)塊攜帶有語義屬性,語義屬性包括鏈接個數(shù)、鏈接長度及文本長度。
S24、根據(jù)網頁頁面的鏈接數(shù)量和鏈接密度判斷網頁類型,若網頁類型為導航頁,則中止,若網頁類型為主題頁,則執(zhí)行步驟 S25。
S25、根據(jù)各個區(qū)塊的語義屬性,對各個區(qū)塊進行分類,分為主題塊及噪音塊。噪音塊包括導航欄、廣告欄及其他干擾信息
S26、剔除噪音塊,提取主題塊的核心文本數(shù)據(jù)。優(yōu)選地,無用節(jié)點為初始 DOM 樹中與內容提取無關的節(jié)點,其包括腳本、樣式控制信息、注釋及空格文本節(jié)點。
S3、中文分詞
向分詞云服務器 30 發(fā)送分詞任務請求,并提交核心文本數(shù)據(jù),分詞云服務器 30 對核心文本數(shù)據(jù)進行中文分詞處理,并將分詞結果發(fā)送給內容分析系統(tǒng)23。
為實現(xiàn)核心文本數(shù)據(jù)和分詞結果的傳輸效率,本實施例采用了詞典壓縮技術。在本實施例中,內容服務器 20 上安裝有第一壓縮/解壓縮系統(tǒng) 25,分詞云服務器 30 上安裝有第二壓縮/解壓縮系統(tǒng) 31 以及中文分詞系統(tǒng) 32,第一壓縮/解壓縮系統(tǒng) 25 和第二壓縮/解壓縮系統(tǒng) 31 均具有壓縮詞典,第一壓縮/解壓縮系統(tǒng) 25 還包括第一壓縮模塊、第一解壓縮模塊及詞典升級模塊,第二壓縮/解壓縮系統(tǒng) 31 還包括第二壓縮模塊、第二解壓縮模塊及詞典更新模塊。壓縮詞典可根據(jù)行業(yè)特點和用戶需求進行定制。
步驟 S3 包括以下分步驟:
S31、內容服務器 20 向分詞云服務器 30 發(fā)送分詞任務請求,并利用第一壓縮模塊基于壓縮詞典對核心文本數(shù)據(jù)進行數(shù)據(jù)壓縮處理,發(fā)送給分詞云服務器 30。
S32、分詞云服務器 30 對分詞任務請求進行安全驗證,驗證通過后利用第二解壓縮模塊進行數(shù)據(jù)解壓縮處理,還原出核心文本數(shù)據(jù)。
S33、中文分詞系統(tǒng) 32 對核心文本數(shù)據(jù)進行中文分詞處理,生成分詞結果。中文分詞處理具體為,首先通過漢轉音剔除錯誤字詞,然后通過同義匹 配、詞性確認、語法切割、固定詞匹配、標點規(guī)范、縮進規(guī)范、冗余感知及網絡修正進行分詞處理。
S34、利用第二壓縮模塊基于壓縮詞典對分詞結果進行數(shù)據(jù)壓縮處理,發(fā)送給內容服務器 20,同時將分詞結果存儲在分詞云服務器 30,對第二壓縮/解壓縮系統(tǒng) 31 的壓縮詞典進行更新。
S35、內容服務器 20 利用第一解壓縮模塊進行數(shù)據(jù)解壓縮處理,還原出分詞結果,同時與分詞云服務器 30 進行通信,對第一壓縮/解壓縮系統(tǒng) 25 的壓縮詞典進行升級。
S4、內容分析
預先建立實體關系數(shù)據(jù)集,建立實體關系數(shù)據(jù)集包含一組命名實體以及與每個命名實體對應的特征信息知識庫。
內容分析系統(tǒng) 23 針對分詞結果提取關鍵詞,得到關鍵詞數(shù)據(jù)集。
針對每個關鍵詞在特征信息知識庫搜索與該關鍵詞對應的匹配結果,將該匹配結果對應的命名實體作為屬性索引項添加到結構化數(shù)據(jù)表,將該關鍵詞作為屬性值添加到結構化數(shù)據(jù)表,遍歷關鍵詞數(shù)據(jù)集中的所有關鍵詞,得到結構化數(shù)據(jù)集。
基于結構化數(shù)據(jù)集對核心文本數(shù)據(jù)及對應的網頁頁面進行分類,并存儲到數(shù)據(jù)庫 24。
計算每個關鍵詞在核心文本數(shù)據(jù)出現(xiàn)的頻度,找出未與特征信息知識庫實現(xiàn)匹配且頻度高于預設頻度閾值的關鍵詞,并將該關鍵詞計入候選詞庫,存儲到數(shù)據(jù)庫 24 中,后續(xù)可通過人工方式對候選詞庫中的關鍵詞進行評估,選擇添加到特征信息知識庫中或者刪除。
S5、結果呈現(xiàn)
客戶端 10 從數(shù)據(jù)庫 24 中調取數(shù)據(jù)結果,并呈現(xiàn)給用戶。
通過以上描述可以看出,本發(fā)明可根據(jù)用戶需求定制業(yè)務規(guī)則和分析模型,利用內容服務器 20 進行網頁主題內容提取和數(shù)據(jù)分析,利用分詞云服務器 30 進行中文分詞,利用客戶端 10 查看數(shù)據(jù)推送結果。用戶無需投入軟硬件資源,能夠滿足中小企業(yè)和普通個人用戶的大數(shù)據(jù)分析服務的低成本、定 向化要求。
以上所述,僅為本發(fā)明較佳的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內,可輕易想到的變化或替換,都應涵蓋在本發(fā)明的保護范圍之內。因此,本發(fā)明的保護范圍應該以權利要求的保護范圍為準。