欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種從論壇帖子列表頁面中抽取帖子元數據的方法

文檔序號:6464816閱讀:148來源:國知局
專利名稱:一種從論壇帖子列表頁面中抽取帖子元數據的方法
技術領域
本發(fā)明涉及網絡信息抽取方法,特別是一種從論壇帖子列表頁面中抽取帖 子元數據的方法。
背景技術
網絡的飛速發(fā)展帶來了海量的網絡信息,如何抽取所需要的網絡信息也越 來越被人們所關注。網絡信息抽取是指從網頁這樣的半結構化文檔中抽取出結 構化信息。這些網頁往往由服務器端的應用程序自動生成。網絡信息抽取而生 成的結構化信息為網絡挖掘、網絡檢索等重要網絡應用提供了最基礎的分析數 據。因此,網絡信息抽取方法的研究具有非常重要的現實意義。
用于執(zhí)行信息抽取任務的程序稱為抽取器。
網絡信息抽取可以分為兩大部分數據的抽取和數據的集成。數據的抽取 是指從半結構化文檔中抽取出結構化數據。數據的集成是指為抽取出的數據賦 予其含義,如產品的名稱、價格等。
從自動化程度的角度分類,網絡信息抽取方法主要可以分為三類手工構 造抽取器的方法,基于監(jiān)督學習的抽取方法,和基于非監(jiān)督學習的抽取方法。
手工構造抽取器的方法,顧名思義,是需要人工編寫抽取程序。這要求用 戶具備相當專業(yè)的計算機和編程知識。因此,該方法并不具有普遍的實用性。
基于監(jiān)督學習的抽取方法,是先由用戶在學習階段對訓練頁面標注出要抽 取的內容,然后從訓練頁面中學習出抽取規(guī)則,生成抽取器。因為手工標注的 代價較高,所以這種方法不適合應用于大規(guī)模網站的信息抽取。而且網站的頻 繁變化,使得維護抽取器需要付出相當大的代價,因此該方法也不適合應用于 大量網站的信息抽取。
基于非監(jiān)督學習的抽取方法,是不需要用戶的參與,自動生成抽取器。由 于抽取信息的過程是完全自動的,所以非常適用于大規(guī)模網站的信息抽取需 求。并且抽取器的維護代價非常小,因此該方法適用于大量網站的信息抽取。網絡信息的形式是多種多樣的,僅就網絡論壇中的信息而言,網絡論壇己 經成為人們交流信息的重要渠道之一,論壇中的數據越來越受到網絡分析者的 關注。論壇帖子列表頁面中的帖子列表包含了豐富的帖子的元數據,例如發(fā)帖 子的作者,帖子的標題,發(fā)帖時間,帖子的瀏覽數,帖子的回復數等。這些帖 子的元數據為論壇挖掘、論壇檢索等后期的分析應用提供了豐富的基礎數據。
由于手工構造抽取器的方法和基于監(jiān)督學習的抽取方法都需要用戶參與 大量工作,因此對于日益增長的大量論壇數據,采用基于非監(jiān)督學習的自動抽 取方法實現從論壇帖子列表中在線抽取帖子的元數據是合適的。
然而,現有技術中的基于非監(jiān)督學習的信息抽取方法,都沒有考慮利用網 絡論壇的特征來抽取信息,從而導致使用這些方法從論壇帖子列表頁面中抽取 帖子的元數據時,無法在抽取精度、抽取速度、維護代價方面滿足處理大量的 大規(guī)模論壇數據的實際需求。

發(fā)明內容
本發(fā)明的目的是一種從論壇帖子列表頁面中抽取帖子元數據的方法,能夠 滿足處理大量的大規(guī)模論壇數據的實際需求,其抽取精度高、抽取速度快、維 護代價小。
為了上述目的,本發(fā)明提供如下技術方案
一種從論壇帖子列表頁面中抽取帖子元數據的方法,包括如下步驟 步驟Sl,提供論壇帖子列表頁面作為樣例頁面,根據樣例頁面中的帖子 記錄的組織結構特征生成抽取模板;
步驟S2,根據抽取模板,對與樣例頁面中的帖子記錄的組織結構相同或 相似的論壇帖子列表頁面作在線抽取操作,獲得帖子元數據。
進一步地,所述步驟S1是在離線狀態(tài)下提供樣例頁面,并生成抽取模板。 進一步地,所述步驟S1還包括根據樣例頁面中的帖子記錄的組織結構特 征,判斷樣例頁面的帖子記錄的組織結構類型的步驟,所述步驟S1中根據樣 例頁面中的帖子記錄的組織結構特征生成抽取模板的步驟包括根據樣例頁面 中的帖子記錄的組織結構類型,生成與所述樣例頁面的帖子記錄的組織結構類 型相對應類型的抽取模板。
進一步地,所述組織結構類型包括第一類型論壇帖子列表頁面對應的標簽樹中的帖子節(jié)點的標簽都相同, 但不是〈div〉標簽;每個帖子節(jié)點在標簽樹中的深度相同;帖子節(jié)點的子節(jié)點 個數相同,且超過3個;
第二類型論壇帖子列表頁面對應的標簽樹中的帖子節(jié)點的標簽都是 <div>;帖子節(jié)點都具有非空的"Class"屬性值;帖子節(jié)點在標簽樹中的深度 相同;帖子節(jié)點的有效子節(jié)點個數相同,且超過3個;所述有效子節(jié)點是指這 樣的子節(jié)點該子節(jié)點及其子樹承載的文本不為空,且該子節(jié)點具有非空的
"class"屬性值。
進一步地,所述步驟S1具體包括如下步驟
步驟Sll,提供論壇帖子列表頁面作為樣例頁面,建立樣例頁面的標簽樹; 步驟S12,根據樣例頁面的帖子記錄的組織結構類型,設定用于分離出帖 子節(jié)點的分組條件;
步驟S13,遍歷標簽樹的各節(jié)點,根據分組條件將標簽樹中的節(jié)點分組; 步驟S14,選擇節(jié)點數最多的組作為帖子節(jié)點組;
步驟S15,根據帖子節(jié)點組中節(jié)點的特征,生成相應類型的抽取模板。 進一步地,在步驟S12中,當樣例頁面中的帖子記錄的組織結構類型是 第一類型時,所述分組條件為
節(jié)點的標簽都相同,但不是〈div^節(jié)點在標簽樹中的深度相同;節(jié)點的子 節(jié)點個數相同,且超過3個。
進一步地,在步驟S15中,當樣例頁面中的帖子記錄的組織結構類型是第一 類型時,對應的抽取模板包括如下信息
該抽取模板適用的論壇帖子列表頁面中的帖子記錄的組織結構類型為第 一類型;節(jié)點的標簽名稱;節(jié)點在標簽樹中的深度;節(jié)點的子節(jié)點個數。
進一步地,在步驟S12中,當樣例頁面中的帖子記錄的組織結構類型是第二 類型時,所述分組條件為
節(jié)點的標簽都是〈div、且節(jié)點都具有非空的"class"屬性值;節(jié)點在標簽樹 中的深度相同;節(jié)點的有效子節(jié)點個數相同,且超過3個。
進一步地,在步驟S15中,當樣例頁面中的帖子記錄的組 結構類型是第二 類型時,對應的抽取模板包括如下信息該抽取模板適用的論壇帖子列表頁面中的帖子記錄的組織結構類型為第二 類型;節(jié)點的標簽名稱;節(jié)點在標簽樹中的深度;節(jié)點的有效子節(jié)點個數。 進一步地,所述步驟S2具體包括如下步驟
步驟S21,在線為待抽取帖子元數據的論壇帖子列表頁面建立標簽樹; 步驟S22,遍歷標簽樹的各節(jié)點,選擇滿足抽取模板的節(jié)點作為帖子節(jié)點; 步驟S23,對每一個帖子節(jié)點,從其每個子節(jié)點中抽取出相應的帖子記錄 的各字段,即帖子的元數據。
進一歩地,在步驟S21中還包括判斷論壇帖子列表頁面中的帖子記錄的 組織結構類型的步驟;當判斷結果為第一類型時,則繼續(xù)執(zhí)行步驟S22;當判 斷結果是第二類型時,所述步驟S22具體包括遍歷標簽樹的各節(jié)點,選擇滿 足該論壇帖子列表頁面的抽取模板的節(jié)點作為候選帖子節(jié)點;判斷各候選帖子 節(jié)點是否具有非空的"class"屬性值,如果是,則該候選帖子節(jié)點作為帖子節(jié) 點,否則不作為帖子節(jié)點。
進一步地,當所述判斷結果是第二類型時,在步驟S23中,所述子節(jié)點是 指有效子節(jié)點。
本發(fā)明產生的有益技術效果是
本發(fā)明的從論壇帖子列表頁面中抽取帖子元數據的方法充分利用了論壇 帖子列表頁面的組織結構特征,能夠準確地定位到帖子記錄,從而使抽取帖子 記錄的平均準確率可高達98%,從帖子記錄中識別帖子元數據的平均準確率可 高達100%。因此,本發(fā)明在抽取精度方面滿足了處理大量的大規(guī)模論壇數據 的實際需求。
本發(fā)明的從論壇帖子列表頁面中抽取帖子元數據的方法,采用離線生成抽 取模板、利用模板進行在線抽取操作的策略,這種策略使得在線操作時,能夠 通過已經離線生成的抽取模板準確地定位到帖子記錄。本發(fā)明在離線生成抽取 模板時的平均速度可高達7頁/秒,在在線抽取元數據時的平均速度可高達8 頁/秒。從而在抽取速度方面滿足了處理大量的大規(guī)模論壇數據的實際需求。
本發(fā)明的從論壇帖子列表頁面中抽取帖子元數據的方法充分利用了網絡 論壇的組織結構特征,使得在維護代價方面滿足了處理大量的大規(guī)模論壇數據 的實際需求。原因如下通常情況下, 一個網絡論壇中的論壇帖子列表頁面的 組織結構往往很相似,可以歸為同一組,同一組內的論壇帖子列表頁面可以共
8用同一個抽取模板;且同一組內的論壇頁面必然為同一類型(后面將詳細描 述),如第一類型,或第二類型。較少情況下, 一個網絡論壇中的論壇帖子列 表頁面無法歸為一組,即無法共用同一個抽取模板,通??煞譃閚組,仍然是 同一組內的論壇帖子列表頁面共用同一個抽取模板,且同一組內的論壇帖子列 表頁面必然為同一類型,如第一類型,或第二類型,通常n小于10。在本發(fā) 明的抽取帖子元數據方法中,為組織結構相似的一組論壇帖子列表頁面生成一 個抽取模板只需要選擇一個樣例頁面。因此,在離線生成抽取模板時,對一個 論壇網站,往往只需要用戶提供一個樣例頁面,或者在論壇中的各論壇帖子列 表頁面的組織結構不相似的情況下提供n個樣例頁面(通常n小于10)。這使 得本發(fā)明在生成抽取模板和維護抽取模板的方面代價很小。


圖1是本發(fā)明具體實施方式
的從論壇帖子列表頁面中抽取帖子元數據的 方法的概括流程圖。
圖2是本發(fā)明具體實施方式
的從論壇帖子列表頁面中抽取帖子元數據的 方法的部分具體流程圖。
圖3是本發(fā)明具體實施方式
的從論壇帖子列表頁面中抽取帖子元數據的 方法的部分具體流程圖。
具體實施例方式
為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實 施例,對本發(fā)明的從論壇帖子列表頁面中抽取帖子元數據的方法進一步詳細說 明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定 本發(fā)明。
本發(fā)明的從論壇帖子列表頁面中抽取帖子元數據的方法,利用網絡論壇在 組織結構方面的特征,尤其是論壇帖子列表頁面的帖子記錄在組織結構方面的 特征,使得該方法從論壇帖子列表中在線抽取帖子的元數據時,在抽取精度、 抽取速度、維護代價方面能夠滿足處理大量的大規(guī)模論壇數據的實際需求。本 發(fā)明主要涉及數據的抽取方法,不涉及數據的集成。
在論壇帖子列表頁面中,列表中的每一條帖子記錄記載了一個帖子的一組
9元數據,每一條帖子記錄的各個字段分別包含一個元數據,例如發(fā)帖子的作者、
帖子的標題、發(fā)帖時間等。 一個網頁的HTML (Hypertext Markup Language,
超文本標記語言)標簽在組織結構上可以用一棵樹表達,稱為標簽樹。在論壇 帖子列表頁面對應的標簽樹中,包含多個節(jié)點, 一條帖子記錄被一個節(jié)點及其 子樹承載著,這個節(jié)點在本發(fā)明中被稱為帖子節(jié)點,不承載帖子記錄的節(jié)點可 以稱為非帖子節(jié)點。列表中的各條帖子記錄在組織結構上是相似的,相應的帖 子節(jié)點之間也是相似的。
本發(fā)明統(tǒng)計了帖子節(jié)點的組織結構特征,按照帖子節(jié)點的組織結構特征將 論壇帖子列表頁面分為三類帖子節(jié)點的組織結構類型為第一類型的論壇帖子 列表頁面,稱為Table-Type類型的論壇帖子列表頁面;帖子節(jié)點的組織結構類 型為第二類型的論壇帖子列表頁面,稱為Div-Type類型的論壇帖子列表頁面; 和不屬于上述兩種類型的其他類型論壇帖子列表頁面,稱為Other-Type類型。 下面詳細說明各類型的特征
Table-Type類型的論壇帖子列表頁面的特征論壇帖子列表頁面對應的標 簽樹中的帖子節(jié)點的標簽都相同,但不是〈div〉標簽;每個帖子節(jié)點在標簽樹 中的深度相同(即在標簽樹中的同一層);帖子節(jié)點的子節(jié)點個數相同,且超 過3個。該類型論壇帖子列表頁面上的非帖子節(jié)點不具備上述三個特征。此類 型的論壇帖子列表頁面占網絡上所有論壇帖子列表頁面的60%。
Div-Type類型的論壇帖子列表頁面的特征論壇帖子列表頁面對應的標簽
樹中的帖子節(jié)點的標簽都是〈div〉;帖子節(jié)點都具有非空的"Class"屬性值;
帖子節(jié)點在標簽樹中的深度相同(即在標簽樹中的同一層);帖子節(jié)點的有效 子節(jié)點個數相同,且超過3個。這里,有效子節(jié)點是指這樣的子節(jié)點該子節(jié) 點及其子樹承載的文本不為空,且該子節(jié)點具有非空的"class"屬性值。該類 型論壇帖子列表頁面上的非帖子節(jié)點不具備上述三個特征。此類型的論壇帖子 列表頁面占網絡上所有論壇帖子列表頁面的30%。
Other-Type類型的論壇帖子列表頁面的特征不符合Table-Type和 Div-Type類型的論壇帖子列表頁面都歸為此類型。此類型的論壇帖子列表頁面 占網絡上所有論壇帖子列表頁面的10%。
本發(fā)明的從論壇帖子列表頁面中抽取帖子元數據的方法只處理 Table-Type類型和Div-Type類型的論壇帖子列表頁面,對Other-Type類型的頁面不作處理。當然,本領域技術人員也可以根據本發(fā)明的提示,采用本發(fā)明
的方法對Other-Type類型的論壇帖子列表頁面進行處理,但處理的效果可能不 如處理另外兩種論壇帖子列表頁面的效果好。
本發(fā)明提供的從論壇帖子列表頁面中抽取帖子元數據的方法,如圖1所 示,包括如下步驟
步驟Sl,提供論壇帖子列表頁面作為樣例頁面,根據樣例頁面中的帖子 記錄的組織結構特征生成抽取模板。本領域技術人員應當清楚,組織結構相似 的論壇帖子列表頁面可以共用同一個抽取模板。
步驟S2,根據抽取模板,對與樣例頁面中的帖子記錄的組織結構相同或 相似的論壇帖子列表頁面作在線抽取操作,獲得帖子元數據。
較佳地,所述步驟Sl中是在離線狀態(tài)下提供樣例頁面,并生成抽取模板。 這樣做的好處是使得在線抽取元數據時,能夠通過已經離線生成的抽取模板準 確地定位到帖子記錄,從而加快在線抽取的速度,滿足大量的大規(guī)模論壇數據 的實際需求。
較佳地,所述步驟S1中,還包括根據樣例頁面中的帖子記錄的組織結構 特征,判斷樣例頁面的帖子記錄的組織結構類型的步驟,所述步驟Sl中根據 樣例頁面中的帖子記錄的組織結構特征生成抽取模板的步驟包括根據樣例頁 面中的帖子記錄的組織結構類型,生成與所述樣例頁面的帖子記錄的組織結構 相對應類型的抽取模板。判斷樣例頁面中的帖子記錄的組織結構類型可以通過 人工方式,也可以通過編程方式自動統(tǒng)計論壇帖子列表頁面的標簽樹的節(jié)點特 征來實現;或者通過査看最終抽取的元數據是否為需要的帖子元數據,來確定 頁面類型及相應的抽取模板是否需要改變。這些方式都是本領域技術人員根據 上述提示能夠實現的,在此不再贅述。
較佳地,如圖2所示,所述步驟S1具體包括如下步驟
步驟Sll,提供論壇帖子列表頁面作為樣例頁面,建立樣例頁面的標簽樹;
步驟S12,根據樣例頁面中的帖子記錄的組織結構類型,設定用于分離出 帖子節(jié)點的分組條件;
判斷樣例頁面中的帖子記錄的組織結構類型可以通過人工方式,也可以通 過編程方式自動統(tǒng)計論壇帖子列表頁面的標簽樹的節(jié)點特征來實現;或者通過査看最終抽取的元數據是否為需要的帖子元數據,來確定頁面類型及相應的抽 取模板是否需要改變。
步驟S13,遍歷標簽樹的各節(jié)點,根據分組條件將標簽樹中的節(jié)點分組;
步驟S14,選擇節(jié)點數最多的組作為帖子節(jié)點組。
根據對網絡中論壇帖子列表頁面的標簽樹的節(jié)點統(tǒng)計,可以得出按照上 述分組條件生成的節(jié)點組中,節(jié)點數最多的組最有可能是帖子節(jié)點組。因此, 本發(fā)明基于分組條件,選擇節(jié)點數最多的組作為帖子節(jié)點組。
步驟S15,根據帖子節(jié)點組中節(jié)點的特征,生成相應類型的抽取模板;
較佳地,在步驟S12中,當樣例頁面中的帖子記錄的組織結構類型是第一 類型時,所述分組條件為
(l)節(jié)點的標簽都相同,但不是〈div〉; (2)節(jié)點在標簽樹中的深度相同 (即在標簽樹中的同一層);(3)節(jié)點的子節(jié)點個數相同,且超過3個。
較佳地,在步驟S15中,當樣例頁面中的帖子記錄的組織結構類型是第一 類型時,對應的抽取模板包括如下信息
(1)該抽取模板適用的論壇帖子列表頁面中的帖子記錄的組織結構類型
為第一類型,(2)節(jié)點的標簽名稱,(3)節(jié)點在標簽樹中的深度,(4)節(jié)點的
子節(jié)點個數。
較佳地,在步驟S12中,當樣例頁面中的帖子記錄的組織結構類型是第二
類型時,所述分組條件為
(1)節(jié)點的標簽都是〈div、且節(jié)點都具有非空的"class"屬性值;(2) 節(jié)點在標簽樹中的深度相同(即在樹中的同一層);3)節(jié)點的有效子節(jié)點個數 相同,且超過3個。
所述有效子節(jié)點是指滿足這樣條件的子節(jié)點該子節(jié)點及其子樹承載的文 本不為空,且該子節(jié)點具有非空的"class"屬性值。
較佳地,在步驟S15中,當樣例頁面中的帖子記錄的組織結構類型是第二 類型時,對應的抽取模板包括如下信息
(1)該抽取模板適用的論壇帖子列表頁面中的帖子記錄的組織結構類型
為第二類型,(2)節(jié)點的標簽名稱,gp<div>; 3)節(jié)點在標簽樹中的深度,(4)節(jié)點的有效子節(jié)點個數。
較佳地,所述步驟S2具體包括如下步驟
步驟S21,在線為待抽取帖子元數據的論壇帖子列表頁面建立標簽樹; 步驟S22,遍歷標簽樹的各節(jié)點,選擇滿足抽取模板的節(jié)點作為帖子節(jié)點; 步驟S23,對每一個帖子節(jié)點,從其每個子節(jié)點中抽取出相應的帖子記錄
的各字段,即帖子的元數據。
當要處理的論壇帖子列表頁面中的帖子記錄的組織結構是第一類型時,直
接執(zhí)行上述步驟S21至23。
當要處理的的論壇帖子列表頁面中的帖子記錄的組織結構是第二類型時,
上述步驟S22具體包括遍歷標簽樹的各節(jié)點,選擇滿足該論壇帖子列表頁面
的抽取模板的節(jié)點作為候選帖子節(jié)點;判斷各候選帖子節(jié)點是否具有非空的 "class"屬性值,如果是,則該候選帖子節(jié)點作為帖子節(jié)點,否則不作為帖子節(jié)點。
由于上述兩種情況,因此較佳地,步驟S21還包括判斷論壇帖子列表頁 面中的帖子記錄的組織結構類型;當判斷結果為第一類型時,則繼續(xù)執(zhí)行步驟 S22;當判斷結果是第二類型時,上述步驟S22具體包括遍歷標簽樹的各節(jié) 點,選擇滿足該論壇帖子列表頁面的抽取模板的節(jié)點作為候選帖子節(jié)點;判斷 各候選帖子節(jié)點是否具有非空的"class"屬性值,如果是,則該候選帖子節(jié)點 作為帖子節(jié)點,否則不作為帖子節(jié)點。
當所述判斷結果是第二類型時,在步驟S23中,所述子節(jié)點是指帖子節(jié)點 的有效子節(jié)點。
重復執(zhí)行上述步驟S21至S23,可以循環(huán)在線處理大量的論壇帖子列表頁面。
通常情況下, 一個網絡論壇中的論壇帖子列表頁面的組織結構往往很相 似,可以歸為同一組,同一組內的論壇帖子列表頁面共用同一個抽取模板,且 同一組內的論壇帖子列表頁面必然為同一類型,如第一類型,或第二類型。較 少情況下, 一個網絡論壇中的論壇帖子列表頁面無法歸為一組,即無法共用同 一個抽取模板(例如共用同一個抽取模板時,無法從有的論壇帖子列表頁面中 抽取出需要的帖子元數據),通??煞譃閚組,同樣,同一組內的論壇帖子列表頁面共用同一個抽取模板,且同組內的論壇帖子列表頁面必然為同一類型,
如第一類型,或第二類型,通常n小于10。
通過上面對本發(fā)明具體實施方式
的描述,可見本發(fā)明產生的有益技術效果

本發(fā)明的從論壇帖子列表頁面中抽取帖子元數據的方法充分利用了論壇 帖子列表頁面的組織結構特征,能夠準確地定位到帖子記錄,從而使抽取帖子 記錄的平均準確率可高達98%,從帖子記錄中識別帖子元數據的平均準確率可 高達100%。因此,本發(fā)明在抽取精度方面滿足了處理大量的大規(guī)模論壇數據 的實際需求。
本發(fā)明的從論壇帖子列表頁面中抽取帖子元數據的方法,采用離線生成抽 取模板、利用模板進行在線抽取操作的方法。本發(fā)明在離線生成抽取模板時的 平均速度可高達7頁/秒,在在線抽取元數據時的平均速度可高達8頁/秒。從 而在抽取速度方面滿足了處理大量的大規(guī)模論壇數據的實際需求。
本發(fā)明的從論壇帖子列表頁面中抽取帖子元數據的方法充分利用了網絡 論壇的組織結構特征,使得在維護代價方面滿足了處理大量的大規(guī)模論壇數據 的實際需求。原因如下通常情況下, 一個網絡論壇中的論壇帖子列表頁面的 組織結構往往很相似,可以歸為同一組,同一組內的論壇帖子列表頁面可以共 用同一個抽取模板;且同一組內的論壇頁面必然為同一類型(后面將詳細描 述),如第一類型,或第二類型。較少情況下, 一個網絡論壇中的論壇帖子列 表頁面無法歸為一組,即無法共用同一個抽取模板,通常可分為n組,仍然是 同一組內的論壇帖子列表頁面共用同一個抽取模板,且同一組內的論壇帖子列 表頁面必然為同一類型,如第一類型,或第二類型,通常n小于10。在本發(fā) 明的抽取帖子元數據方法中,為組織結構相似的一組論壇帖子列表頁面生成一 個抽取模板只需要選擇一個樣例頁面。因此,在離線生成抽取模板時,對一個 論壇網站,往往只需要用戶提供一個樣例頁面,或者在論壇中的各論壇帖子列 表頁面的組織結構不相似的情況下提供n個樣例頁面(通常n小于10)。這使 得本發(fā)明在生成抽取模板和維護抽取模板的方面代價很小。
以上所述內容,僅為本發(fā)明具體的實施方式,但本發(fā)明的保護范圍并不局 限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內,可輕易 想到的變化或替換,都應涵蓋在本發(fā)明的保護范圍內。
權利要求
1、一種從論壇帖子列表頁面中抽取帖子元數據的方法,其特征是,包括如下步驟步驟S1,提供論壇帖子列表頁面作為樣例頁面,根據樣例頁面中的帖子記錄的組織結構特征生成抽取模板;步驟S2,根據抽取模板,對與樣例頁面中的帖子記錄的組織結構相同或相似的論壇帖子列表頁面作在線抽取操作,獲得帖子元數據。
2、 根據權利要求1所述的從論壇帖子列表頁面中抽取帖子元數據的方法, 其特征是,所述步驟S1是在離線狀態(tài)下提供樣例頁面,并生成抽取模板。
3、 根據權利要求1所述的從論壇帖子列表頁面中抽取帖子元數據的方法, 其特征是,所述歩驟Sl還包括根據樣例頁面中的帖子記錄的組織結構特征, 判斷樣例頁面的帖子記錄的組織結構類型的步驟,所述步驟Sl中根據樣例頁 面中的帖子記錄的組織結構特征生成抽取模板的歩驟包括根據樣例頁面中的 帖子記錄的組織結構類型,生成與所述樣例頁面的帖子記錄的組織結構類型相 對應類型的抽取模板。
4、 根據權利要求3所述的從論壇帖子列表頁面中抽取帖子元數據的方法, 其特征是,所述組織結構類型包括第一類型論壇帖子列表頁面對應的標簽樹中的帖子節(jié)點的標簽都相同, 但不是〈div〉標簽;每個帖子節(jié)點在標簽樹中的深度相同;帖子節(jié)點的子節(jié)點 個數相同,且超過3個;第二類型論壇帖子列表頁面對應的標簽樹中的帖子節(jié)點的標簽都是 〈div〉;帖子節(jié)點都具有非空的"Class"屬性值;帖子節(jié)點在標簽樹中的深度 相同;帖子節(jié)點的有效子節(jié)點個數相同,且超過3個;所述有效子節(jié)點是指這 樣的子節(jié)點該子節(jié)點及其子樹承載的文本不為空,且該子節(jié)點具有非空的"class"屬性值。
5、 根據權利要求4所述的從論壇帖子列表頁面中抽取帖子元數據的方法,其特征是,所述步驟Sl具體包括如下步驟步驟Sll,提供論壇帖子列表頁面作為樣例頁面,建立樣例頁面的標簽樹;步驟S12,根據樣例頁面的帖子記錄的組織結構類型,設定用于分離出帖 子節(jié)點的分組條件;步驟S13,遍歷標簽樹的各節(jié)點,根據分組條件將標簽樹中的節(jié)點分組;步驟S14,選擇節(jié)點數最多的組作為帖子節(jié)點組;步驟S15,根據帖子節(jié)點組中節(jié)點的特征,生成相應類型的抽取模板。
6、 根據權利要求5所述的從論壇帖子列表頁面中抽取帖子元數據的方法, 其特征是,在步驟S12中,當樣例頁面中的帖子記錄的組織結構類型是第一類 型時,所述分組條件為節(jié)點的標簽都相同,但不是〈div〉;節(jié)點在標簽樹中的深度相同;節(jié)點的子節(jié)點個數相同,且超過3個。
7、 根據權利要求6所述的從論壇帖子列表頁面中抽取帖子元數據的方法, 其特征是,在步驟S15中,當樣例頁面中的帖子記錄的組織結構類型是第一類型時,對應的抽取模板包括如下信息該抽取模板適用的論壇帖子列表頁面中的帖子記錄的組織結構類型為第一類型;節(jié)點的標簽名稱;節(jié)點在標簽樹中的深度;節(jié)點的子節(jié)點個數。
8、 根據權利要求5所述的從論壇帖子列表頁面中抽取帖子元數據的方法, 其特征是,在步驟S12中,當樣例頁面中的帖子記錄的組織結構類型是第二類 型時,所述分組條件為節(jié)點的標簽都是〈div〉,且節(jié)點都具有非空的"class"屬性值;節(jié)點在標 簽樹中的深度相同;節(jié)點的有效子節(jié)點個數相同,且超過3個。
9、 根據權利要求7或8所述的從論壇帖子列表頁面中抽取帖子元數據的 方法,其特征是,在步驟S15中,當樣例頁面中的帖子記錄的組織結構類型是 第二類型時,對應的抽取模板包括如下信息該抽取模板適用的論壇帖子列表頁面中的帖子記錄的組織結構類型為第 二類型;節(jié)點的標簽名稱;節(jié)點在標簽樹中的深度;節(jié)點的有效子節(jié)點個數。
10、 根據權利要求1或3或4所述的從論壇帖子列表頁面中抽取帖子元數 據的方法,其特征是,所述步驟S2具體包括如下步驟步驟S21,在線為待抽取帖子元數據的論壇帖子列表頁面建立標簽樹; 步驟S22,遍歷標簽樹的各節(jié)點,選擇滿足抽取模板的節(jié)點作為帖子節(jié)點; 步驟S23,對每一個帖子節(jié)點,從其每個子節(jié)點中抽取出相應的帖子記錄的各字段,即帖子的元數據。
11、 根據權利要求10所述的從論壇帖子列表頁面中抽取帖子元數據的方 法,其特征是,在歩驟S21中還包括判斷論壇帖子列表頁面中的帖子記錄的 組織結構類型的步驟;當判斷結果為第一類型時,則繼續(xù)執(zhí)行步驟S22;當判 斷結果是第二類型時,所述步驟S22具體包括遍歷標簽樹的各節(jié)點,選擇滿 足該論壇帖子列表頁面的抽取模板的節(jié)點作為候選帖子節(jié)點;判斷各候選帖子 節(jié)點是否具有非空的"class"屬性值,如果是,則該候選帖子節(jié)點作為帖子 節(jié)點,否則不作為帖子節(jié)點。
12、 根據權利要求11所述的從論壇帖子列表頁面中抽取帖子元數據的方 法,其特征是,當所述判斷結果是第二類型時,在步驟S23中,所述子節(jié)點是 指有效子節(jié)點。
全文摘要
本發(fā)明公開了一種從論壇帖子列表頁面中抽取帖子元數據的方法,其包括如下步驟步驟S1,提供論壇帖子列表頁面作為樣例頁面,根據樣例頁面中的帖子記錄的組織結構特征生成抽取模板;步驟S2,根據抽取模板,對與樣例頁面中的帖子記錄的組織結構相同或相似的論壇帖子列表頁面作在線抽取操作,獲得帖子元數據。本發(fā)明能夠滿足處理大量的大規(guī)模論壇數據的實際需求,且抽取精度高、抽取速度快、維護代價小。
文檔編號G06F17/30GK101661468SQ200810119238
公開日2010年3月3日 申請日期2008年8月29日 優(yōu)先權日2008年8月29日
發(fā)明者丁國棟, 剛 張, 曹冬林, 宇 王, 巖 郭 申請人:中國科學院計算技術研究所
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
张家口市| 娄底市| 仁寿县| 犍为县| 荃湾区| 奉化市| 科技| 钟山县| 鹤峰县| 湖北省| 庆安县| 乐平市| 祁阳县| 读书| 屏东市| 河北区| 漠河县| 高淳县| 平谷区| 安康市| 嵊泗县| 房山区| 五常市| 平泉县| 葵青区| 神池县| 大悟县| 台江县| 东光县| 水城县| 漳平市| 炎陵县| 诏安县| 耒阳市| 出国| 兴海县| 麦盖提县| 繁峙县| 苍南县| 汝南县| 晋江市|