欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

從網(wǎng)頁(yè)中抽取數(shù)據(jù)的方法和裝置的制作方法

文檔序號(hào):6334830閱讀:117來(lái)源:國(guó)知局
專利名稱:從網(wǎng)頁(yè)中抽取數(shù)據(jù)的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)業(yè)務(wù)技術(shù),特別涉及從網(wǎng)頁(yè)中抽取數(shù)據(jù)的方法和裝置。
背景技術(shù)
在數(shù)據(jù)業(yè)務(wù)技術(shù)中,目前的網(wǎng)頁(yè)信息抽取方式都是通過(guò)編寫正則表達(dá)式實(shí)現(xiàn)的, 具體為針對(duì)每個(gè)網(wǎng)站,甚至網(wǎng)站內(nèi)的每個(gè)版塊,都需要編寫對(duì)應(yīng)的正則表達(dá)式。這種方式主要針對(duì)信息量相對(duì)較小的某個(gè)網(wǎng)站或網(wǎng)站內(nèi)部的某個(gè)版塊,比較適合少數(shù)網(wǎng)站短期的研究行為。但是,網(wǎng)站采用的技術(shù)或者布局日新月異,這樣隨著技術(shù)或布局的變化,就需要重新編寫相應(yīng)的正則表達(dá)式,這會(huì)導(dǎo)致無(wú)法對(duì)全網(wǎng)海量的數(shù)據(jù)進(jìn)行實(shí)時(shí)處理,并且,正則表達(dá)式都是由人工執(zhí)行的,這種隨著技術(shù)或布局的變化就需要重新編寫相應(yīng)的正則表達(dá)式的方式,需要太多人力資源。

發(fā)明內(nèi)容
本發(fā)明提供了從網(wǎng)頁(yè)中抽取數(shù)據(jù)的方法,以避免通過(guò)編寫正則表達(dá)式的方式抽取數(shù)據(jù),節(jié)省人力資源。本發(fā)明提供的技術(shù)方案包括一種從網(wǎng)頁(yè)中抽取數(shù)據(jù)的方法,該方法包括步驟A,定義網(wǎng)頁(yè)中節(jié)點(diǎn)的劃分規(guī)則,根據(jù)節(jié)點(diǎn)劃分規(guī)則和對(duì)訓(xùn)練樣本網(wǎng)頁(yè)的解析,獲取用于抽取網(wǎng)頁(yè)中數(shù)據(jù)的約束規(guī)則集合;步驟B,利用所述約束規(guī)則集合從待抽取的網(wǎng)頁(yè)中抽取數(shù)據(jù)。一種從網(wǎng)頁(yè)中抽取數(shù)據(jù)的裝置,包括處理單元,用于定義網(wǎng)頁(yè)中節(jié)點(diǎn)的劃分規(guī)則,根據(jù)節(jié)點(diǎn)劃分規(guī)則和對(duì)訓(xùn)練樣本網(wǎng)頁(yè)的解析,獲取用于抽取網(wǎng)頁(yè)中數(shù)據(jù)的約束規(guī)則集合;抽取單元,用于利用所述約束規(guī)則集合從待抽取的網(wǎng)頁(yè)中抽取數(shù)據(jù)。由以上技術(shù)方案可以看出,本發(fā)明中,通過(guò)定義網(wǎng)頁(yè)中節(jié)點(diǎn)的劃分規(guī)則,根據(jù)節(jié)點(diǎn)劃分規(guī)則和對(duì)訓(xùn)練樣本網(wǎng)頁(yè)的解析,獲取用于抽取網(wǎng)頁(yè)中數(shù)據(jù)的約束規(guī)則集合;以及利用所述約束規(guī)則集合從待抽取的網(wǎng)頁(yè)中抽取數(shù)據(jù),實(shí)現(xiàn)了根據(jù)節(jié)點(diǎn)自身屬性及確定的規(guī)則約束來(lái)完成數(shù)據(jù)抽取,避免了根據(jù)網(wǎng)站網(wǎng)頁(yè)結(jié)構(gòu)量身定做模板或者編寫正則表達(dá)式的方式, 同時(shí)也消除了網(wǎng)站改版或技術(shù)更換帶來(lái)的模板重新定義或正則表達(dá)式重新編寫等因素的影響;進(jìn)一步地,本發(fā)明中,一旦規(guī)則約束確立,就可以對(duì)展現(xiàn)“同類節(jié)點(diǎn)但不同網(wǎng)站或不同結(jié)構(gòu)的網(wǎng)頁(yè)”準(zhǔn)確實(shí)時(shí)進(jìn)行數(shù)據(jù)抽取,極大的提高了方法的適用范圍及時(shí)效性,很大程度上減少了人工干預(yù),同時(shí)極大的改善了搜索引擎信息檢索的質(zhì)量及信息更新的及時(shí)性問題,使搜索引擎不必再受制于前端頁(yè)面展現(xiàn)技術(shù)或版式多變的困擾。


圖1為本發(fā)明實(shí)施例提供的基本流程圖;圖2為本發(fā)明實(shí)施例提供的步驟102的流程圖;圖3為本發(fā)明實(shí)施例提供的步驟204的具體流程圖;圖4為本發(fā)明實(shí)施例提供的確定步驟205中節(jié)點(diǎn)的約束集合的流程圖;圖5為本發(fā)明實(shí)施例提供的步驟209的流程圖;圖6為本發(fā)明實(shí)施例提供的確定維度在節(jié)點(diǎn)屬性值上的極值約束條件集合的流程圖;圖7為本發(fā)明實(shí)施例提供的步驟103的具體流程圖;圖8為本發(fā)明實(shí)施例提供的步驟701的流程圖;圖9為本發(fā)明實(shí)施例提供的步驟702的具體流程圖;圖10為本發(fā)明實(shí)施例提供的步驟703的流程圖;圖11為本發(fā)明實(shí)施例提供的等價(jià)關(guān)系劃分約束流程圖;圖12為本發(fā)明實(shí)施例提供的劃分關(guān)系的排序約束的流程圖;圖13為本發(fā)明實(shí)施例提供的維度之間關(guān)聯(lián)約束的流程圖;圖14為本發(fā)明實(shí)施例提供的步驟705的流程圖;圖15為本發(fā)明實(shí)施例提供的裝置結(jié)構(gòu)圖。
具體實(shí)施例方式本發(fā)明提供的方法可對(duì)網(wǎng)頁(yè)中的數(shù)據(jù)進(jìn)行抽取,其主要是利用網(wǎng)頁(yè)中節(jié)點(diǎn)自身或節(jié)點(diǎn)之間的屬性定義相應(yīng)的節(jié)點(diǎn)劃分規(guī)則,再根據(jù)提供的普通訓(xùn)練樣本網(wǎng)頁(yè)集和指定抽取維度集合確定該指定抽取維度集合中各個(gè)維度在該普通訓(xùn)練樣本網(wǎng)頁(yè)集中出現(xiàn)的路徑 (Xpath),采用基于粗糙集等價(jià)劃分和維度間約束分析方法,計(jì)算得出各個(gè)維度對(duì)應(yīng)的基于粗糙集的等價(jià)約束條件集合及維度在節(jié)點(diǎn)屬性值上的約束條件集合等,該計(jì)算得出的約束條件集合可以通過(guò)反向驗(yàn)證方式來(lái)驗(yàn)證其有效性及通用性,最后將這些約束條件集合應(yīng)用到網(wǎng)頁(yè)的數(shù)據(jù)抽取中。其中,在后期的數(shù)據(jù)抽取中也可以不斷的完善上述約束集合,也就是說(shuō),本發(fā)明提供的方法實(shí)質(zhì)上是一個(gè)開放式的自動(dòng)不斷完善的過(guò)程。為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。參見圖1,圖1為本發(fā)明實(shí)施例提供的基本流程圖。如圖1所示,該流程可包括以下步驟步驟101,定義網(wǎng)頁(yè)中節(jié)點(diǎn)的劃分規(guī)則。本步驟101中,網(wǎng)頁(yè)中節(jié)點(diǎn)實(shí)質(zhì)上為將網(wǎng)頁(yè)解析成DOM樹,然后將DOM樹轉(zhuǎn)化成各個(gè)節(jié)點(diǎn),組成節(jié)點(diǎn)集合。至于步驟101中的劃分規(guī)則,其可以根據(jù)網(wǎng)頁(yè)中各個(gè)節(jié)點(diǎn)自身包含的信息以及位置等因素來(lái)定義,也可以根據(jù)實(shí)際情況來(lái)定義,本發(fā)明實(shí)施例并不具體限定。優(yōu)選地,作為本發(fā)明的一個(gè)實(shí)施例,該節(jié)點(diǎn)分類規(guī)則可包括以下幾種的至少一個(gè)1)節(jié)點(diǎn)位置特征,即節(jié)點(diǎn)在DOM樹中的位置;
2)節(jié)點(diǎn)的文本類型,即節(jié)點(diǎn)的類型是文本、注釋,或樣式等;3)節(jié)點(diǎn)的 HTML 標(biāo)記 Tag ;4)節(jié)點(diǎn)內(nèi)容;5)節(jié)點(diǎn)內(nèi)容的字符長(zhǎng)度;6)節(jié)點(diǎn)中包含的子節(jié)點(diǎn)中含有內(nèi)容的子節(jié)點(diǎn)個(gè)數(shù);7)節(jié)點(diǎn)所在HTML標(biāo)記中的區(qū)域;8)節(jié)點(diǎn)兄弟節(jié)點(diǎn)的個(gè)數(shù);9)節(jié)點(diǎn)文字的正則表達(dá)式;10)其他,可以根據(jù)不同的需求定義的節(jié)點(diǎn)劃分規(guī)則。步驟102,根據(jù)節(jié)點(diǎn)劃分規(guī)則和對(duì)訓(xùn)練樣本網(wǎng)頁(yè)的解析,獲取用于抽取網(wǎng)頁(yè)中數(shù)據(jù)的約束規(guī)則集合。本步驟102中訓(xùn)練樣本網(wǎng)頁(yè)的個(gè)數(shù)為一個(gè)以上,可統(tǒng)一存在一個(gè)集合比如訓(xùn)練樣本集(以下以訓(xùn)練樣本集為例進(jìn)行描述)中,其主要是根據(jù)實(shí)際情況確定的,不需要特殊處理,可為普通網(wǎng)頁(yè)。至于步驟102中的獲取操作如何實(shí)現(xiàn),具體在下文圖2進(jìn)行描述。步驟103,利用所述約束規(guī)則集合從待抽取的網(wǎng)頁(yè)中抽取數(shù)據(jù)。至此,通過(guò)以上步驟實(shí)現(xiàn)了本發(fā)明實(shí)施例提供的數(shù)據(jù)抽取方法。參見圖2,圖2為本發(fā)明實(shí)施例提供的步驟102的流程圖。本實(shí)施例中,步驟102 主要是根據(jù)節(jié)點(diǎn)劃分規(guī)則對(duì)訓(xùn)練樣本網(wǎng)頁(yè)進(jìn)行分析,識(shí)別出指定維度所在節(jié)點(diǎn)滿足哪些約束規(guī)則,然后再將這些約束規(guī)則應(yīng)用在其他樣本網(wǎng)頁(yè),如果能夠正確且唯一識(shí)別出所有樣本網(wǎng)頁(yè)在該設(shè)定維度的信息,則將該約束規(guī)則保留,形成約束規(guī)則集合,如果不能識(shí)別出, 則額外增加節(jié)點(diǎn)分類規(guī)則,重復(fù)上述過(guò)程,最終得到有效的約束規(guī)則集合。下面對(duì)該步驟 102進(jìn)行詳細(xì)描述。如圖2所示,該流程可包括以下步驟步驟201,指定從訓(xùn)練樣本網(wǎng)頁(yè)中抽取的維度I (Dl,D2,D3. . . Dm)(記為維度集合 I),以及指定該維度集合I對(duì)應(yīng)的節(jié)點(diǎn)存放集合UI。步驟201中,指定維度集合I中的維度是從樣本訓(xùn)練網(wǎng)頁(yè)中需要抽取的結(jié)果對(duì)象, 比如標(biāo)題title、內(nèi)容content、發(fā)表時(shí)間time等。其可與集合UI中的節(jié)點(diǎn)具有一一對(duì)應(yīng)關(guān)系,也可具有一對(duì)多關(guān)系,其中,維度對(duì)應(yīng)的集合UI中的節(jié)點(diǎn),實(shí)質(zhì)上是該維度在訓(xùn)練樣本網(wǎng)頁(yè)中的位置,即路徑Xpath,比如標(biāo)題在某個(gè)訓(xùn)練樣本網(wǎng)頁(yè)中的Xpath,這里,獲取這些信息的Xpath方式有很多,利用firefox瀏覽器插件是其中一種很簡(jiǎn)單的方式。步驟202,遍歷訓(xùn)練樣本集中的訓(xùn)練樣本網(wǎng)頁(yè),將該遍歷到的訓(xùn)練樣本網(wǎng)頁(yè)作為當(dāng)前樣本。步驟203,將當(dāng)前樣本解析成DOM樹,然后將DOM樹轉(zhuǎn)化成節(jié)點(diǎn)集合U。本步驟203中,集合U可與集合UI相同,也可不同,比如,集合U為集合UI中的子集,或者集合U與集合UI具有部分相同的節(jié)點(diǎn)等。步驟204,根據(jù)不同的節(jié)點(diǎn)劃分規(guī)則將集合U劃分成不同的劃分集合。也就是說(shuō),步驟101定義多少個(gè)節(jié)點(diǎn)劃分規(guī)則,本步驟204就可得到多少個(gè)劃分集合,具體可參見圖3所示的流程。
參見圖3,圖3為本發(fā)明實(shí)施例提供的步驟204的具體流程圖。如圖3所示,該流程可包括以下步驟步驟301,遍歷步驟101定義的節(jié)點(diǎn)劃分規(guī)則,將遍歷到的節(jié)點(diǎn)劃分規(guī)則作為當(dāng)前劃分規(guī)則;步驟302,遍歷集合U,將遍歷到的節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn);步驟303,判斷當(dāng)前節(jié)點(diǎn)是否滿足當(dāng)前劃分規(guī)則,如果是,執(zhí)行步驟304 ;如果否, 執(zhí)行步驟305 ;步驟304,將當(dāng)前節(jié)點(diǎn)添加到該當(dāng)前劃分規(guī)則對(duì)應(yīng)的劃分集合中,之后執(zhí)行步驟 305。步驟305,判斷集合U中是否還存在未被遍歷的節(jié)點(diǎn),如果是,將該未被遍歷的其中一個(gè)節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn),返回執(zhí)行步驟303 ;如果否,執(zhí)行步驟306 ;步驟306,判斷定義的節(jié)點(diǎn)劃分規(guī)則中是否還存在未被遍歷的節(jié)點(diǎn)劃分規(guī)則,如果是,將未被遍歷的其中一個(gè)節(jié)點(diǎn)劃分規(guī)則作為當(dāng)前劃分規(guī)則,返回執(zhí)行步驟302,否則,結(jié)束當(dāng)前流程。至此,通過(guò)上述步驟306實(shí)現(xiàn)了步驟204中的流程。步驟205,根據(jù)劃分集合,確定集合UI中每個(gè)節(jié)點(diǎn)的約束集合,將集合UI中所有節(jié)點(diǎn)的所有約束集合作為該訓(xùn)練樣本網(wǎng)頁(yè)對(duì)應(yīng)的第一約束條件集合。本步驟205實(shí)質(zhì)上是分別確定集合UI中每個(gè)節(jié)點(diǎn)出現(xiàn)在步驟204得到的哪些劃分集合中,得到該節(jié)點(diǎn)的約束集合,將集合UI中所有節(jié)點(diǎn)的約束集合組合在一起,得到第一約束條件集合。參見圖4,圖4為本發(fā)明實(shí)施例提供的確定步驟205中節(jié)點(diǎn)的約束集合的流程圖。 如圖4所示,該流程可包括以下步驟步驟401,遍歷集合UI,將遍歷到的節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn);步驟402,判斷步驟204得到的劃分集合中是否存在包含該當(dāng)前節(jié)點(diǎn)的劃分集合, 如果是,執(zhí)行步驟403,否則,執(zhí)行步驟404 ;步驟403,將當(dāng)前節(jié)點(diǎn)上對(duì)應(yīng)該存在的劃分集合的節(jié)點(diǎn)屬性值和該當(dāng)前節(jié)點(diǎn)存放在當(dāng)前節(jié)點(diǎn)的約束集合中。之后執(zhí)行步驟404。由于劃分集合與節(jié)點(diǎn)劃分規(guī)則對(duì)應(yīng),因此,該當(dāng)前節(jié)點(diǎn)的節(jié)點(diǎn)屬性值與該存在的劃分集合所對(duì)應(yīng)的節(jié)點(diǎn)劃分規(guī)則對(duì)應(yīng)。步驟404,判斷集合UI中是否還存在未被遍歷的節(jié)點(diǎn),如果是,將未被遍歷的其中一個(gè)節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn),返回步驟402,否則,結(jié)束當(dāng)前流程。至此,通過(guò)上述步驟可以確定集合UI中各個(gè)節(jié)點(diǎn)的約束集合。步驟206,針對(duì)集合UI中任意兩個(gè)節(jié)點(diǎn),計(jì)算該兩個(gè)節(jié)點(diǎn)對(duì)應(yīng)的兩個(gè)維度在至少一個(gè)屬性上的二元關(guān)系,將計(jì)算結(jié)果記錄在該訓(xùn)練樣本網(wǎng)頁(yè)對(duì)應(yīng)的第二約束條件集合(也稱為維度間約束集合)。其中,根據(jù)節(jié)點(diǎn)屬性值類型,及節(jié)點(diǎn)之間的關(guān)聯(lián),本發(fā)明實(shí)施例中的二元關(guān)系主要包括以下至少一種(1)等價(jià)關(guān)系指每個(gè)節(jié)點(diǎn)屬性值都具有的二元關(guān)系,用于判斷兩個(gè)節(jié)點(diǎn)在同一屬性上是否相等,比如兩個(gè)節(jié)點(diǎn)是否都是文本節(jié)點(diǎn),是否有孩子節(jié)點(diǎn)等;
(2)比較關(guān)系其是可選的二元關(guān)系,用于比較兩個(gè)節(jié)點(diǎn)在同一屬性上的取值,其得到的比較結(jié)果集分為大于、小于、等于三種;(3)距離關(guān)系數(shù)值型屬性都具有,結(jié)果為兩個(gè)節(jié)點(diǎn)在此數(shù)值型屬性上的數(shù)值差的絕對(duì)值;(4)其他,根據(jù)屬性的值,可以增加更多的自定義的關(guān)系。以集合UI中任意兩個(gè)節(jié)點(diǎn)對(duì)應(yīng)的兩個(gè)維度為題目Tp和日期Dp,選取的屬性為位置屬性為例,由于在位置屬性上有比較關(guān)系,以及距離關(guān)系,因此,可計(jì)算題目和日期在位置屬性上這兩種關(guān)系的至少一個(gè),以計(jì)算這兩種關(guān)系為例,假設(shè)這兩個(gè)計(jì)算結(jié)果為比較關(guān)系τρ > Dp,距離關(guān)系|Tp-Dp| < 5,如此,將則將該計(jì)算結(jié)果記錄到當(dāng)前樣本對(duì)應(yīng)的維度間約束集合中。步驟207,判斷訓(xùn)練樣本集是否還存在未被遍歷的訓(xùn)練樣本網(wǎng)頁(yè),如果是,執(zhí)行步驟208 ;否則,執(zhí)行步驟209。步驟208,將該未被遍歷的其中一個(gè)訓(xùn)練樣本網(wǎng)頁(yè)作為當(dāng)前樣本,返回執(zhí)行步驟 203。步驟209,根據(jù)步驟205計(jì)算的第一約束條件集合確定基于粗糙集的等價(jià)約束條件集合。參見圖5,圖5為本發(fā)明實(shí)施例提供的步驟209的流程圖。如圖5所示,該流程可包括以下步驟步驟501,遍歷第一約束條件集合中各個(gè)節(jié)點(diǎn)的約束集合,將遍歷到的節(jié)點(diǎn)約束集合作為當(dāng)前約束集合。步驟502,判斷當(dāng)前約束集合對(duì)應(yīng)的節(jié)點(diǎn)劃分規(guī)則是離散型還是連續(xù)型,并根據(jù)確定結(jié)果計(jì)算當(dāng)前約束集合中各個(gè)節(jié)點(diǎn)分布的概率。由于在步驟205中,節(jié)點(diǎn)的約束集合對(duì)應(yīng)劃分集合,而劃分集合是依賴于節(jié)點(diǎn)劃分規(guī)則劃分的,即劃分集合對(duì)應(yīng)節(jié)點(diǎn)劃分規(guī)則,因此,本步驟502根據(jù)當(dāng)前約束集合很容易確定出該當(dāng)前約束集合對(duì)應(yīng)的節(jié)點(diǎn)劃分規(guī)則。本實(shí)施例中,如果對(duì)應(yīng)的節(jié)點(diǎn)劃分規(guī)則是離散型,則步驟502中的計(jì)算可按照公式一執(zhí)行
權(quán)利要求
1.一種從網(wǎng)頁(yè)中抽取數(shù)據(jù)的方法,其特征在于,該方法包括步驟A,定義網(wǎng)頁(yè)中節(jié)點(diǎn)的劃分規(guī)則,根據(jù)節(jié)點(diǎn)劃分規(guī)則和對(duì)訓(xùn)練樣本網(wǎng)頁(yè)的解析,獲取用于抽取網(wǎng)頁(yè)中數(shù)據(jù)的約束規(guī)則集合;步驟B,利用所述約束規(guī)則集合從待抽取的網(wǎng)頁(yè)中抽取數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟A中的獲取包括步驟Al,根據(jù)節(jié)點(diǎn)劃分規(guī)則,生成每一訓(xùn)練樣本網(wǎng)頁(yè)對(duì)應(yīng)的第一約束條件集合和第二約束條件集合;步驟A2,依據(jù)第一約束條件集合和第二約束條件集合分別生成對(duì)應(yīng)的約束規(guī)則集合。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟Al包括步驟All,針對(duì)每一訓(xùn)練樣本網(wǎng)頁(yè),將該訓(xùn)練樣本網(wǎng)頁(yè)解析成DOM樹,并將該DOM樹轉(zhuǎn)換成節(jié)點(diǎn)集合U;步驟A12,按照定義的不同節(jié)點(diǎn)劃分規(guī)則,將節(jié)點(diǎn)集合U劃分成不同的劃分集合; 步驟A13,根據(jù)所述劃分集合,確定指定抽取維度集合對(duì)應(yīng)的節(jié)點(diǎn)存放集合Ul中每個(gè)節(jié)點(diǎn)的約束集合,將節(jié)點(diǎn)存放集合UI中所有節(jié)點(diǎn)的所有約束集合作為該訓(xùn)練樣本網(wǎng)頁(yè)對(duì)應(yīng)的第一約束條件集合;步驟A14,針對(duì)節(jié)點(diǎn)存放集合UI中任意兩個(gè)節(jié)點(diǎn),計(jì)算該兩個(gè)節(jié)點(diǎn)對(duì)應(yīng)的兩個(gè)維度在至少一個(gè)屬性上的二元關(guān)系,將計(jì)算結(jié)果記錄在該訓(xùn)練樣本網(wǎng)頁(yè)對(duì)應(yīng)的第二約束條件集
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述步驟A12包括步驟A121,遍歷定義的節(jié)點(diǎn)劃分規(guī)則,將遍歷到的節(jié)點(diǎn)劃分規(guī)則作為當(dāng)前劃分規(guī)則; 步驟A122,遍歷節(jié)點(diǎn)集合U,將遍歷到的節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn);步驟A123,判斷該當(dāng)前節(jié)點(diǎn)是否滿足當(dāng)前劃分規(guī)則,如果是,則將當(dāng)前節(jié)點(diǎn)添加到該當(dāng)前劃分規(guī)則對(duì)應(yīng)的劃分集合中,執(zhí)行步驟A124,如果否,執(zhí)行步驟AlM ;步驟A124,判斷所述節(jié)點(diǎn)集合U中是否還存在未被遍歷的節(jié)點(diǎn),如果是,將該未被遍歷的其中一個(gè)節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn),返回執(zhí)行步驟A123 ;如果否,執(zhí)行步驟A125 ;步驟A125,判斷定義的節(jié)點(diǎn)劃分規(guī)則中是否還存在未被遍歷的節(jié)點(diǎn)劃分規(guī)則,如果是, 將未被遍歷的其中一個(gè)節(jié)點(diǎn)劃分規(guī)則作為當(dāng)前劃分規(guī)則,返回執(zhí)行步驟A122,否則,結(jié)束當(dāng)前流程。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述步驟A13包括 步驟A131,遍歷節(jié)點(diǎn)存放集合UI,將遍歷到的節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn);步驟A132,判斷步驟A12得到的劃分集合中是否存在包含該當(dāng)前節(jié)點(diǎn)的劃分集合,如果是,將當(dāng)前節(jié)點(diǎn)上對(duì)應(yīng)該存在的劃分集合的節(jié)點(diǎn)屬性值和該當(dāng)前節(jié)點(diǎn)存放在當(dāng)前節(jié)點(diǎn)的約束集合中,之后執(zhí)行步驟A133 ;如果否,執(zhí)行步驟A133 ;步驟A133,判斷節(jié)點(diǎn)存放集合Ul中是否還存在未被遍歷的節(jié)點(diǎn),如果是,將未被遍歷的其中一個(gè)節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn),返回步驟A132,否則,結(jié)束當(dāng)前流程。
6.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述步驟A2中的約束規(guī)則集合包括基于粗糙集的等價(jià)約束條件集合和維度在節(jié)點(diǎn)屬性值上的約束條件集合。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述基于粗糙集的等價(jià)約束條件集合依據(jù)第一約束條件集合生成,具體包括步驟A21,遍歷第一約束條件集合中各個(gè)節(jié)點(diǎn)的約束集合,將遍歷到的節(jié)點(diǎn)約束集合作為當(dāng)前約束集合;步驟A22,判斷當(dāng)前約束集合對(duì)應(yīng)的節(jié)點(diǎn)劃分規(guī)則是離散型還是連續(xù)型,并根據(jù)確定結(jié)果計(jì)算當(dāng)前約束集合中各個(gè)節(jié)點(diǎn)分布的概率;步驟A23,從當(dāng)前約束集合中去除具有概率不同于指定目標(biāo)節(jié)點(diǎn)的概率的節(jié)點(diǎn);步驟A24,判斷第一約束條件集合中的節(jié)點(diǎn)約束集合是否已被全部遍歷,如果是,執(zhí)行步驟A25,否則,將未被遍歷的其中一個(gè)節(jié)點(diǎn)約束集合確定為當(dāng)前約束集合,返回執(zhí)行步驟 A22 ;步驟A25,將通過(guò)步驟A23得到的所有集合確定為基于粗糙集的等價(jià)約束條件集合。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述維度在節(jié)點(diǎn)屬性值上的約束條件集合依據(jù)第二約束條件集合生成,具體包括合并不同訓(xùn)練樣本網(wǎng)頁(yè)對(duì)應(yīng)的第二約束條件集合;確定合并后得到的集合為維度在節(jié)點(diǎn)屬性值上的約束條件集合。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述第二約束條件集合中的二元關(guān)系至少包括比較關(guān)系和距離關(guān)系;將不同訓(xùn)練樣本網(wǎng)頁(yè)對(duì)應(yīng)的第二約束條件集合合并至少包括合并比較關(guān)系和合并距離關(guān)系;其中,合并比較關(guān)系包括在一個(gè)訓(xùn)練樣本網(wǎng)頁(yè)對(duì)應(yīng)的第二約束條件集合中存在兩個(gè)節(jié)點(diǎn)之間的比較關(guān)系,判斷該比較關(guān)系是否存在其他訓(xùn)練樣本網(wǎng)頁(yè)對(duì)應(yīng)的第二約束條件集合中,如果是,該比較關(guān)系保留;如果不是,刪除掉該比較關(guān)系;合并距離關(guān)系包括在一個(gè)訓(xùn)練樣本網(wǎng)頁(yè)對(duì)應(yīng)的第二約束條件集合中兩個(gè)維度之間的距離關(guān)系為第一值,如果在其他訓(xùn)練樣本網(wǎng)頁(yè)對(duì)應(yīng)的第二約束條件集合中該兩個(gè)維度之間的距離關(guān)系為第二值,則該兩個(gè)維度之間的距離關(guān)系在合并后為第一值至第二值之間的數(shù)值。
10.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述步驟A2進(jìn)一步包括驗(yàn)證所述基于粗糙集的等價(jià)約束條件集合和維度在節(jié)點(diǎn)屬性值上的約束條件集合是否識(shí)別出所述指定維度集合中的各個(gè)維度,如果是,則執(zhí)行步驟B ;否則,執(zhí)行步驟A3 ;步驟A3,確定維度在節(jié)點(diǎn)屬性值上的極值約束條件集合。
11.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述驗(yàn)證基于粗糙集的等價(jià)約束條件集合和維度在節(jié)點(diǎn)屬性值上的約束條件集合是否識(shí)別出指定維度集合中的各個(gè)維度包括針對(duì)每一訓(xùn)練樣本網(wǎng)頁(yè)中任意兩個(gè)維度Dl和D2,執(zhí)行以下處理如果維度Dl對(duì)應(yīng)的節(jié)點(diǎn)集合為Um (Nxl,· · · NJ,維度Dl對(duì)應(yīng)的節(jié)點(diǎn)集合為Udid2 {(NxlNyl) · · · Nyn),維度Dl和D2 上的二元關(guān)系集合為UR(R1,. . . to),則將維度Dl和維度D2對(duì)應(yīng)的節(jié)點(diǎn)集組合,得到以下節(jié)點(diǎn)對(duì)UD1D2{(Nxi,Nyi) I i e {1,m},j e {1,η}};遍歷所述節(jié)點(diǎn)對(duì),確定滿足所述二元關(guān)系集合中所有二元關(guān)系的節(jié)點(diǎn)對(duì),得到集合Udl {(Nx, Ny)...};在對(duì)所述訓(xùn)練樣本網(wǎng)頁(yè)中每?jī)蓚€(gè)維度都完成所述處理后,判斷最終得到滿足二元關(guān)系集合中所有二元關(guān)系的節(jié)點(diǎn)對(duì)組成的集合是否僅有1個(gè),如果是,確定所述基于粗糙集的等價(jià)約束條件集合和維度在節(jié)點(diǎn)屬性值上的約束條件集合識(shí)別出所述指定維度集合中的各個(gè)維度;否則,確定所述基于粗糙集的等價(jià)約束條件集合和維度在節(jié)點(diǎn)屬性值上的約束條件集合識(shí)別不出所述指定維度集合中的各個(gè)維度。
12.根據(jù)權(quán)利要求10所述的方法,其特征在于,所述步驟A3包括步驟A31,遍歷所述指定維度集合中的維度,將遍歷到的維度作為當(dāng)前維度,如果當(dāng)前維度對(duì)應(yīng)的節(jié)點(diǎn)集Un中包含的節(jié)點(diǎn)數(shù)量大于1,所述節(jié)點(diǎn)集Un中的節(jié)點(diǎn)屬于同一訓(xùn)練樣本網(wǎng)頁(yè),則遍歷指定目標(biāo)節(jié)點(diǎn)與當(dāng)前維度對(duì)應(yīng)的所有節(jié)點(diǎn)具有的各個(gè)屬性,將遍歷到的屬性作為當(dāng)前屬性;步驟A32,將指定目標(biāo)節(jié)點(diǎn)分別與當(dāng)前維度對(duì)應(yīng)的所有節(jié)點(diǎn)在當(dāng)前屬性上進(jìn)行比較,得到比較結(jié)果;步驟A33,根據(jù)所述比較結(jié)果確定所述指定目標(biāo)節(jié)點(diǎn)在該當(dāng)前屬性上的取值; 步驟A33,根據(jù)確定的取值確定當(dāng)前屬性對(duì)應(yīng)的輸出結(jié)果;步驟A34,判斷是否還存在未被遍歷的屬性,如果是,將未被遍歷的其中一個(gè)屬性確定為當(dāng)前屬性,返回執(zhí)行步驟A32 ;如果否,執(zhí)行步驟A35 ;步驟A35,將所述各個(gè)屬性對(duì)應(yīng)的各個(gè)輸出結(jié)果組成各個(gè)集合,對(duì)各個(gè)集合進(jìn)行處理, 得到當(dāng)前維度對(duì)應(yīng)的極值序列集合;判斷當(dāng)前是否到達(dá)預(yù)設(shè)的合并條件,如果是,執(zhí)行步驟 A36,否則,如果當(dāng)前還存在未被遍歷的維度,則將其中一個(gè)未被遍歷的維度作為當(dāng)前維度, 返回執(zhí)行步驟A31 ;步驟A36,合并各個(gè)維度對(duì)應(yīng)的極值序列集合,將合并后得到的極值序列集合作為維度在節(jié)點(diǎn)屬性值上的極值約束條件集合。
13.根據(jù)權(quán)利要求12所述的方法,其特征在于,所述比較結(jié)果包括大于、等于和小于; 所述步驟A33包括如果比較結(jié)果只有小于,等于和小于為0,則取值為Top ; 如果比較結(jié)果只有小于和等于,大于為0,則取值為Tops ; 如果比較結(jié)果只有大于,小于和大于為0,則取值為Bottom ; 如果比較結(jié)果只有大于和等于,小于為0,則取值為Bottoms ; 如果比較結(jié)果既有大于又有小于,等于為任意,則取值為Middle ; 如果比較結(jié)果只有等于,大于和小于都為0,則取值為Identical。
14.根據(jù)權(quán)利要求13所述的方法,其特征在于,所述步驟A34包括 如果取值為Top,Bottom,則輸出結(jié)果為1,作為極值序列的尾部;如果取值為Tops,Bottoms,則輸出結(jié)果為{2,m_l},作為極值序列的開頭或者中間部分,所述m為指定維度集合中維度的數(shù)量;如果取值為Identical,則輸出結(jié)果為m,作為極值序列的開頭或者中間部分; 如果取值為Middle,則輸出結(jié)果為0,作為序列的尾部后續(xù)處理。
15.根據(jù)權(quán)利要求14所述的方法,其特征在于,所述步驟A35包括將根據(jù)所述輸出結(jié)果為m得到的第一集合中的元素排列,得到排列集合I; 把第一集合中所有元素都分為Top,Bottom,確定排列集合根據(jù)所述輸出結(jié)果為1 得到的第二集合為該維度對(duì)應(yīng)的符合條件的第一極值序列;從所述節(jié)點(diǎn)集Un中確定出滿足排列集合&+根據(jù)所述輸出結(jié)果為{2,m-l}得到的第三集合的子集Uns,把第三集合中的bottoms轉(zhuǎn)為bottom,tops轉(zhuǎn)為top,加入至排列集合仏+根據(jù)所述輸出結(jié)果為{2,m-l}得到的第三集合中,形成第二極值序列;合并所述第一極值序列和第二極值序列,將合并后得到的極值序列確定為當(dāng)前維度對(duì)應(yīng)的極值序列集合;所述預(yù)設(shè)條件為第三集合中的元素?cái)?shù)量為0。
16.根據(jù)權(quán)利要求15所述的方法,其特征在于,所述合并第一極值序列和第二極值序列,或者步驟A36中合并各個(gè)維度對(duì)應(yīng)的極值序列集合具體包括針對(duì)兩個(gè)極值序列Sl和S2,如果Sl e S2 JiJSl η S2 = S2,如果S2 e Si,則Sl η S2 =Si,如果Sl = S2,則Sl η S2 = Si,其他則返回Φ。
17.根據(jù)權(quán)利要求10所述的方法,其特征在于,當(dāng)基于粗糙集的等價(jià)約束條件集合和維度在節(jié)點(diǎn)屬性值上的約束條件集合識(shí)別不出所述指定維度集合中的各個(gè)維度時(shí),所述步驟B包括步驟Bi,生成待抽取網(wǎng)頁(yè)對(duì)應(yīng)的信息集合;步驟Β2,對(duì)所述信息集合按照定義的節(jié)點(diǎn)劃分規(guī)則進(jìn)行劃分,得到信息集合的各個(gè)子集;步驟Β3,合并得到的各個(gè)子集,得到特征值集合;步驟Β4,根據(jù)所述基于粗糙集的等價(jià)約束條件集合、維度在節(jié)點(diǎn)屬性值上的約束條件集合和維度在節(jié)點(diǎn)屬性值上的極值約束條件集合對(duì)所述特征值集合進(jìn)行規(guī)則約束,得到用于抽取數(shù)據(jù)的關(guān)聯(lián)約束映射表;步驟Β5,利用所述關(guān)聯(lián)約束映射表進(jìn)行數(shù)據(jù)抽取。
18.根據(jù)權(quán)利要求17所述的方法,其特征在于,所述步驟Bl包括 步驟B11,將待抽取網(wǎng)頁(yè)解析成DOM樹;步驟Β12,遍歷DOM樹上的所有節(jié)點(diǎn),將遍歷到的節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn),執(zhí)行步驟Β13; 步驟Β13,判斷該節(jié)點(diǎn)是否為注釋節(jié)點(diǎn),如果是,執(zhí)行步驟Β14,否則,執(zhí)行Β15 ; 步驟Β14,判斷DOM樹是否還有節(jié)點(diǎn)沒有遍歷,如果是,將該未被遍歷的其中一個(gè)節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn),返回執(zhí)行步驟Β13,如果否,返回執(zhí)行步驟Bll ;步驟Β15,將該當(dāng)前節(jié)點(diǎn)添加到信息集合中,返回執(zhí)行步驟Β14。
19.根據(jù)權(quán)利要求17所述的方法,其特征在于,所述步驟Β2包括步驟Β21,判斷所述信息集合是否為空,如果為空,執(zhí)行步驟Β24,否則執(zhí)行步驟Β22 ; 步驟Β22,遍歷信息集合,將遍歷到的信息集合中的節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn),執(zhí)行步驟Β23; 步驟Β23,針對(duì)定義的每一節(jié)點(diǎn)劃分規(guī)則,判斷當(dāng)前節(jié)點(diǎn)是否滿足該劃分規(guī)則,如果滿足,則將當(dāng)前節(jié)點(diǎn)添加到該節(jié)點(diǎn)劃分規(guī)則對(duì)應(yīng)的子集中,返回步驟Β21,如果不滿足,則返回步驟Β21 ;步驟Β2,將最后得到的各個(gè)子集作為對(duì)所述信息集合按照定義的節(jié)點(diǎn)劃分規(guī)則進(jìn)行劃分所得到的子集。
20.根據(jù)權(quán)利要求17所述的方法,其特征在于,所述步驟Β3包括 步驟Β31,初始化一個(gè)新的特征值集合;步驟Β32,遍歷步驟Β2得到的子集,將遍歷到的子集作為當(dāng)前子集,執(zhí)行步驟Β33; 步驟Β33,遍歷當(dāng)前子集中的節(jié)點(diǎn),將遍歷到的節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn),執(zhí)行步驟Β34; 步驟Β34,判斷特征值集合中是否包含該當(dāng)前節(jié)點(diǎn),如果包含,執(zhí)行步驟Β36 ;否則,執(zhí)行步驟B35 ;步驟B35,將當(dāng)前節(jié)點(diǎn)及其對(duì)應(yīng)的特征值添加到特征值集合中,之后執(zhí)行步驟B37 ; 步驟B36,將當(dāng)前節(jié)點(diǎn)對(duì)應(yīng)的特征值添加到特征值集合中,之后執(zhí)行步驟B37 ; 步驟B37,將該當(dāng)前節(jié)點(diǎn)設(shè)置為已訪問標(biāo)志Signed,并執(zhí)行步驟B38 ; 步驟B38,判斷當(dāng)前子集是否有節(jié)點(diǎn)沒有遍歷,如果是,將其中一個(gè)未被遍歷的節(jié)點(diǎn)作為當(dāng)前節(jié)點(diǎn),返回執(zhí)行步驟B34,如果否,執(zhí)行步驟B39 ;步驟B39,將當(dāng)前子集設(shè)置為已處理完畢的標(biāo)志;之后執(zhí)行步驟B30 ; 步驟B30,判斷步驟B2得到的子集中是否還存在未被遍歷的子集,如果是,將其中一個(gè)未被遍歷的子集作為當(dāng)前子集,返回執(zhí)行步驟B33,如果否,結(jié)束當(dāng)前流程。
21.根據(jù)權(quán)利要求17所述的方法,其特征在于,所述步驟B4包括步驟B41,根據(jù)所述基于粗糙集的等價(jià)約束條件集合生成等價(jià)關(guān)系劃分映射表; 步驟B42,根據(jù)所述等價(jià)關(guān)系劃分映射表和所述維度在節(jié)點(diǎn)屬性值上的極值約束條件集合生成排序劃分約束映射表;步驟B43,根據(jù)所述維度在節(jié)點(diǎn)屬性值上的約束條件集合和所述排序劃分約束映射表生成用于抽取數(shù)據(jù)的關(guān)聯(lián)約束映射表。
22.根據(jù)權(quán)利要求21所述的方法,其特征在于,不同維度對(duì)應(yīng)不同的基于粗糙集的等價(jià)約束條件集合;所述步驟B41包括步驟B411,遍歷各個(gè)維度對(duì)應(yīng)的基于粗糙集的等價(jià)約束條件集合,將遍歷到的對(duì)應(yīng)維度的等價(jià)約束條件集合作為當(dāng)前約束條件集合;步驟B412,利用當(dāng)前約束條件集合中的第一個(gè)約束條件對(duì)所述特征值集合進(jìn)行等價(jià)劃分;步驟B413,判斷當(dāng)前約束條件集合是否僅包含第一個(gè)約束條件,如果是,執(zhí)行步驟 B416,否則,將第一個(gè)約束條件之后的約束條件作為當(dāng)前約束條件,執(zhí)行步驟B414;步驟B414,使用當(dāng)前約束條件對(duì)通過(guò)使用上一個(gè)約束條件進(jìn)行等價(jià)劃分得到的滿足上一個(gè)約束條件的集合進(jìn)行等價(jià)劃分;步驟B415,判斷當(dāng)前約束條件是否為當(dāng)前約束條件集合的最后一個(gè)約束條件,如果是, 執(zhí)行步驟B416,如果否,將當(dāng)前約束條件的下一個(gè)約束條件作為當(dāng)前約束條件,返回執(zhí)行步驟B414 ;步驟B416,將滿足最后一個(gè)約束條件的集合轉(zhuǎn)化為“以維度為鍵值,滿足約束的節(jié)點(diǎn)集為值對(duì)”的等價(jià)關(guān)系劃分映射表;步驟B417,判斷各個(gè)維度對(duì)應(yīng)的等價(jià)約束條件集合中是否還存在未被遍歷的等價(jià)約束條件集合,如果是,將其中一個(gè)未被遍歷的維度等價(jià)約束條件集合作為當(dāng)前約束結(jié)合,執(zhí)行步驟B412,否則,結(jié)束當(dāng)前流程。
23.根據(jù)權(quán)利要求21所述的方法,其特征在于,所述步驟B42包括步驟B421,遍歷所有維度對(duì)應(yīng)的排序約束條件,將遍歷到的維度對(duì)應(yīng)的排序約束條件作為當(dāng)前約束條件;所述排序約束條件為維度對(duì)應(yīng)的極值序列;步驟B422,從等價(jià)關(guān)系劃分映射表中讀取該維度對(duì)應(yīng)的候選節(jié)點(diǎn)集合; 步驟B423,根據(jù)當(dāng)前約束條件對(duì)候選節(jié)點(diǎn)集合進(jìn)行分類,對(duì)分類后得到的多個(gè)塊集合分別進(jìn)行塊內(nèi)排序;步驟B4M,分別從每塊選取指定的TopN個(gè)節(jié)點(diǎn),并按照塊順序依次放到同一個(gè)節(jié)點(diǎn)集合中;步驟B425,將該節(jié)點(diǎn)集合存放到“以其所在的維度為鍵值,節(jié)點(diǎn)集為值對(duì)”的排序劃分約束映射表中;步驟B似6,判斷是否存在未被遍歷的排序約束條件,如果是,將其中一個(gè)未被遍歷的對(duì)應(yīng)維度的排序約束條件作為當(dāng)前約束條件,返回執(zhí)行步驟B422,否則,結(jié)束當(dāng)前流程。
24.根據(jù)權(quán)利要求21所述的方法,其特征在于,所述步驟B43包括步驟B431,遍歷所有維度對(duì)應(yīng)的關(guān)聯(lián)約束條件,將遍歷到的維度關(guān)聯(lián)約束條件作為當(dāng)前關(guān)聯(lián)條件;所述關(guān)聯(lián)約束條件為維度在節(jié)點(diǎn)屬性值上的約束條件集合;步驟B432,從排序劃分約束映射表中獲取與當(dāng)前關(guān)聯(lián)條件相關(guān)的維度所對(duì)應(yīng)的所有候選節(jié)點(diǎn);步驟B433,對(duì)獲取的所有候選節(jié)點(diǎn)進(jìn)行積映射,得到一組以節(jié)點(diǎn)對(duì)為元素的新集合; 步驟B434,對(duì)步驟B433得到新集合中的節(jié)點(diǎn)對(duì)進(jìn)行約束計(jì)算,將滿足約束規(guī)則的元素保留,并刪除不滿足約束的節(jié)點(diǎn)對(duì),得到該維度的關(guān)聯(lián)約束映射表;步驟B435,判斷是否存在未被遍歷的關(guān)聯(lián)約束條件,如果是,將其中一個(gè)未被遍歷的關(guān)聯(lián)約束條件作為當(dāng)前約束條件,返回執(zhí)行步驟B432,否則,結(jié)束當(dāng)前流程。
25.根據(jù)權(quán)利要求17所述的方法,其特征在于,所述步驟B5包括步驟B51,遍歷關(guān)聯(lián)約束映射表中維度的候選節(jié)點(diǎn)集合,將該維度的候選節(jié)點(diǎn)集合作為當(dāng)前集合;步驟B52,判斷當(dāng)前集合中的節(jié)點(diǎn)個(gè)數(shù)是否為1,如果是,執(zhí)行步驟B53,否則,執(zhí)行步驟B56 ;步驟B53,根據(jù)需求抽取該節(jié)點(diǎn)的相關(guān)內(nèi)容信息,即去除網(wǎng)頁(yè)的標(biāo)記以及相關(guān)格式信息;步驟B54,將該信息保存到“以維度為鍵值,節(jié)點(diǎn)信息內(nèi)容為值對(duì)”的信息體集合中; 步驟B55判斷關(guān)聯(lián)約束映射表中是否還存在未被遍歷的維度候選節(jié)點(diǎn)集合,如果是, 將其中一個(gè)未被遍歷的維度候選節(jié)點(diǎn)集合作為當(dāng)前集合,返回執(zhí)行步驟B52;否則,結(jié)束當(dāng)前流程;步驟B56,將此待抽取網(wǎng)頁(yè)的頁(yè)面鏈接、維度標(biāo)識(shí)及其候選節(jié)點(diǎn)集合寫入錯(cuò)誤處理日志中。
26.一種從網(wǎng)頁(yè)中抽取數(shù)據(jù)的裝置,其特征在于,該裝置包括處理單元,用于定義網(wǎng)頁(yè)中節(jié)點(diǎn)的劃分規(guī)則,根據(jù)節(jié)點(diǎn)劃分規(guī)則和對(duì)訓(xùn)練樣本網(wǎng)頁(yè)的解析,獲取用于抽取網(wǎng)頁(yè)中數(shù)據(jù)的約束規(guī)則集合;抽取單元,用于利用所述約束規(guī)則集合從待抽取的網(wǎng)頁(yè)中抽取數(shù)據(jù)。
27.根據(jù)權(quán)利要求沈所述的裝置,其特征在于,所述處理單元包括約束條件集合生成子單元,用于根據(jù)節(jié)點(diǎn)劃分規(guī)則,生成每一訓(xùn)練樣本網(wǎng)頁(yè)對(duì)應(yīng)的第一約束條件集合和第二約束條件集合;約束規(guī)則集合生成子單元,用于依據(jù)第一約束條件集合和第二約束條件集合分別生成對(duì)應(yīng)的約束規(guī)則集合。
28.根據(jù)權(quán)利要求27所述的裝置,其特征在于,所述約束條件集合生成子單元通過(guò)以下操作生成每一訓(xùn)練樣本網(wǎng)頁(yè)對(duì)應(yīng)的第一約束條件集合和第二約束條件集合針對(duì)每一訓(xùn)練樣本網(wǎng)頁(yè),將該訓(xùn)練樣本網(wǎng)頁(yè)解析成DOM樹,并將該DOM樹轉(zhuǎn)換成節(jié)點(diǎn)集合U;按照定義的不同節(jié)點(diǎn)劃分規(guī)則,將節(jié)點(diǎn)集合U劃分成不同的劃分集合; 根據(jù)所述劃分集合,確定指定維度集合對(duì)應(yīng)的節(jié)點(diǎn)存放集合UI中每個(gè)節(jié)點(diǎn)的約束集合,將節(jié)點(diǎn)存放集合UI中所有節(jié)點(diǎn)的所有約束集合作為該訓(xùn)練樣本網(wǎng)頁(yè)對(duì)應(yīng)的第一約束條件集合;針對(duì)節(jié)點(diǎn)存放集合UI中任意兩個(gè)節(jié)點(diǎn),計(jì)算該兩個(gè)節(jié)點(diǎn)對(duì)應(yīng)的兩個(gè)維度在至少一個(gè)屬性上的二元關(guān)系,將計(jì)算結(jié)果記錄在該訓(xùn)練樣本網(wǎng)頁(yè)對(duì)應(yīng)的第二約束條件集合。
29.根據(jù)權(quán)利要求27所述的裝置,其特征在于,所述約束規(guī)則集合包括基于粗糙集的等價(jià)約束條件集合和維度在節(jié)點(diǎn)屬性值上的約束條件集合;或者,所述約束規(guī)則集合包括 基于粗糙集的等價(jià)約束條件集合、維度在節(jié)點(diǎn)屬性值上的約束條件集合和維度在節(jié)點(diǎn)屬性值上的極值約束條件集合,其中,所述維度在節(jié)點(diǎn)屬性值上的極值約束條件集合在所述基于粗糙集的等價(jià)約束條件集合和維度在節(jié)點(diǎn)屬性值上的約束條件集合識(shí)別不出所述指定維度集合中的各個(gè)維度時(shí)存在。
30.根據(jù)權(quán)利要求四所述的裝置,其特征在于,所述抽取單元在基于粗糙集的等價(jià)約束條件集合和維度在節(jié)點(diǎn)屬性值上的約束條件集合識(shí)別不出所述指定維度集合中的各個(gè)維度時(shí),包括信息集合生成子單元,用于生成待抽取網(wǎng)頁(yè)對(duì)應(yīng)的信息集合; 劃分子單元,用于對(duì)所述信息集合按照定義的節(jié)點(diǎn)劃分規(guī)則進(jìn)行劃分,得到信息集合的各個(gè)子集;合并子單元,用于合并得到的各個(gè)子集,得到特征值集合;規(guī)則約束子單元,用于根據(jù)所述基于粗糙集的等價(jià)約束條件集合、維度在節(jié)點(diǎn)屬性值上的約束條件集合和維度在節(jié)點(diǎn)屬性值上的極值約束條件集合對(duì)所述特征值集合進(jìn)行規(guī)則約束,得到用于抽取數(shù)據(jù)的關(guān)聯(lián)約束映射表;抽取子單元,用于利用所述關(guān)聯(lián)約束映射表進(jìn)行數(shù)據(jù)抽取。
全文摘要
本發(fā)明提供了從網(wǎng)頁(yè)中抽取數(shù)據(jù)方法和裝置,其中,該方法包括步驟A,定義網(wǎng)頁(yè)中節(jié)點(diǎn)的劃分規(guī)則,根據(jù)節(jié)點(diǎn)劃分規(guī)則和對(duì)訓(xùn)練樣本網(wǎng)頁(yè)的解析,獲取用于抽取網(wǎng)頁(yè)中數(shù)據(jù)的約束規(guī)則集合;步驟B,利用所述約束規(guī)則集合從待抽取的網(wǎng)頁(yè)中抽取數(shù)據(jù)。采用本發(fā)明,能夠避免通過(guò)編寫正則表達(dá)式的方式抽取數(shù)據(jù),節(jié)省人力資源。
文檔編號(hào)G06F17/30GK102456050SQ20101052763
公開日2012年5月16日 申請(qǐng)日期2010年10月27日 優(yōu)先權(quán)日2010年10月27日
發(fā)明者楊俊拯, 王全禮, 肖巍, 鄭長(zhǎng)松 申請(qǐng)人:中國(guó)移動(dòng)通信集團(tuán)四川有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
溆浦县| 监利县| 安吉县| 怀来县| 弥勒县| 溧阳市| 五原县| 辽宁省| 吉林市| 松潘县| 五台县| 祁门县| 南郑县| 台中市| 舟山市| 桐城市| 浦江县| 尼勒克县| 灵丘县| 诏安县| 漳州市| 德江县| 威信县| 永城市| 盐源县| 舟山市| 江津市| 永清县| 乐平市| 长垣县| 自贡市| 湘潭县| 无为县| 长汀县| 浮梁县| 德江县| 大兴区| 贡觉县| 鄂托克旗| 土默特左旗| 海宁市|