專利名稱:獲取網(wǎng)頁中的感興趣信息的方法及相關(guān)裝置的制作方法
技術(shù)領(lǐng)域:
本申請涉及計(jì)算機(jī)及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種獲取網(wǎng)頁中的感興趣信息的方法及一種獲取網(wǎng)頁中的感興趣信息的裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為人們?nèi)粘+@取信息的重要手段。當(dāng)人們需要從大量網(wǎng)頁中獲取感興趣信息時(shí),如果依靠人工逐一閱讀每個(gè)網(wǎng)頁來判斷是否存在感興趣的信息,并在該網(wǎng)頁中存在感興趣的信息時(shí),獲取感興趣的信息并存儲,從人力成本和時(shí)間成本上來看是不現(xiàn)實(shí)的。為解決上述問題,現(xiàn)有技術(shù)提出了基于正則規(guī)則的信息獲取技術(shù)和基于文檔對象模型(DOM,Document Object Model)樹Xpath路徑的信息獲取技術(shù)?;谡齽t規(guī)則的信息獲取技術(shù)的基本工作原理為首先對包含感興趣信息的現(xiàn)有網(wǎng)頁的HTML編碼進(jìn)行分析,獲得用于匹配待獲取信息的正則表達(dá)式,然后根據(jù)獲得的正則表達(dá)式,對待獲取信息的大量網(wǎng)頁逐一進(jìn)行匹配處理,根據(jù)匹配結(jié)果獲得感興趣的信息。例如根據(jù)對現(xiàn)有網(wǎng)頁的HTML編碼進(jìn)行分析,確定與感興趣的地址信息相關(guān)的HTML編碼片段為〃 <div><td>地址</td><td>三里屯</td></div>〃,那么對應(yīng)的正則表達(dá)式為"</td><td>(. + )</td>",然后依據(jù)該正則表達(dá)式逐一判斷每個(gè)待獲取信息的網(wǎng)頁中是否存在符合該正則表達(dá)式的編碼片段,若是,將該編碼片段中位于正則表達(dá)式中符號 “(.+ ?) ”對應(yīng)的位置上的內(nèi)容,作為獲取到的感興趣的信息?;贒OM樹Xpath路徑的信息獲取技術(shù)的基本工作原理為對包含感興趣信息的現(xiàn)有網(wǎng)頁的HTML編碼進(jìn)行解析,獲得對應(yīng)的DOM樹,繼而確定對應(yīng)的內(nèi)容為感興趣信息的節(jié)點(diǎn)在該DOM數(shù)中的路徑(xpath),將該路徑(xpath)作為從大量待獲取信息的網(wǎng)頁獲取感興趣的信息的匹配模板。例如,在上面的例子中,假定現(xiàn)有網(wǎng)頁的HTML代碼為"<divXtd> 地址</tdXtd>三里屯</tdX/div>〃,解析獲得的對應(yīng)的DOM樹如附圖1所示。對應(yīng)的文本為感興趣的地址信息的節(jié)點(diǎn)所在的路徑為"http://div/td[2]"(即div根節(jié)點(diǎn)的第2個(gè) td子節(jié)點(diǎn))。然后依據(jù)該路徑,逐一判斷每個(gè)待獲取信息的網(wǎng)頁對應(yīng)的DOM樹中,是否有路徑為"http://div/td[2]"的節(jié)點(diǎn),若是,則將該節(jié)點(diǎn)對應(yīng)的文本作為獲取到的感興趣的信息??梢姡鲜鰞煞N方案都是通過對包含感興趣信息的現(xiàn)有網(wǎng)頁的HTML編碼進(jìn)行分析,獲取能夠體現(xiàn)感興趣信息在網(wǎng)頁中所處位置的規(guī)則,然后根據(jù)獲取的規(guī)則對每個(gè)待抽取信息的網(wǎng)頁逐一進(jìn)行匹配處理來獲取感興趣的信息。因此,對于并非與包含感興趣信息的現(xiàn)有網(wǎng)頁基于同一模板生成的待獲取信息的網(wǎng)頁(即現(xiàn)有網(wǎng)頁的DOM樹與待獲取信息的網(wǎng)頁的DOM樹拓?fù)浣Y(jié)構(gòu)不同),獲取感興趣的信息的效果不佳。雖然目前絕大多數(shù)網(wǎng)頁都是基于超文本標(biāo)記語言(HTML,HyperText Markup Language)格式的,但是包含相同或相似文本內(nèi)容的網(wǎng)頁展現(xiàn)方式是千變?nèi)f化的(即模板可能是不同的),例如字體、排版方式(縱排、橫排)可以不同,其中一個(gè)網(wǎng)頁中可以比另一網(wǎng)頁具有更多的附加廣告信息等。上述兩種現(xiàn)有技術(shù)均無法適應(yīng)這種網(wǎng)頁展現(xiàn)方式的變化,因而無法有效地從大量網(wǎng)頁中獲取感興趣信息。
發(fā)明內(nèi)容
本申請實(shí)施例提供一種獲取網(wǎng)頁中的感興趣信息的方法,用以解決現(xiàn)有技術(shù)中無法從大量根據(jù)不同模板生成的網(wǎng)頁中,精確有效地提取感興趣信息的問題。對應(yīng)地,本申請實(shí)施例還提供了一種獲取網(wǎng)頁中的感興趣信息的裝置。本申請實(shí)施例提供的技術(shù)方案如下一種獲取網(wǎng)頁中的感興趣信息的方法,包括根據(jù)DOM樹的拓?fù)浣Y(jié)構(gòu),對訓(xùn)練網(wǎng)頁集合中各訓(xùn)練網(wǎng)頁進(jìn)行聚類,獲得至少一個(gè) DOM樹具有相似的拓?fù)浣Y(jié)構(gòu)的訓(xùn)練網(wǎng)頁子集合;對每個(gè)所述訓(xùn)練網(wǎng)頁子集合中各個(gè)訓(xùn)練網(wǎng)頁的DOM樹分別進(jìn)行合并,合并后的 DOM樹中的每個(gè)節(jié)點(diǎn)對應(yīng)的文本集合中包括該訓(xùn)練網(wǎng)頁子集合中各個(gè)訓(xùn)練網(wǎng)頁的DOM樹中與該節(jié)點(diǎn)位于相同路徑的節(jié)點(diǎn)對應(yīng)的文本;并確定合并后的DOM樹中的備選節(jié)點(diǎn),所述備選節(jié)點(diǎn)對應(yīng)的文本集合中不同文本的數(shù)量與該文本集合中包含文本總數(shù)的比值超過設(shè)定閾值;獲取信息時(shí),從各訓(xùn)練網(wǎng)頁子集合中選擇出一個(gè)訓(xùn)練網(wǎng)頁子集合,該選擇出的訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后的DOM樹與待獲取信息的網(wǎng)頁的DOM樹的拓?fù)浣Y(jié)構(gòu)最相似,將待獲取信息的網(wǎng)頁的DOM樹中與選擇出的訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后的DOM樹中備選節(jié)點(diǎn)具有相同路徑的節(jié)點(diǎn)對應(yīng)的文本作為獲取到的感興趣信息。一種獲取網(wǎng)頁中的感興趣信息的裝置,包括聚類處理單元,用于根據(jù)DOM樹的拓?fù)浣Y(jié)構(gòu),對訓(xùn)練網(wǎng)頁集合中各訓(xùn)練網(wǎng)頁進(jìn)行聚類,獲得至少一個(gè)DOM樹具有相似的拓?fù)浣Y(jié)構(gòu)的訓(xùn)練網(wǎng)頁子集合;合并單元,用于對聚類處理單元獲得的每個(gè)訓(xùn)練網(wǎng)頁子集合中各個(gè)訓(xùn)練網(wǎng)頁的 DOM樹分別進(jìn)行合并,合并后的DOM樹中的每個(gè)節(jié)點(diǎn)對應(yīng)的文本集合中包括該訓(xùn)練網(wǎng)頁子集合中各個(gè)訓(xùn)練網(wǎng)頁的DOM樹中與該節(jié)點(diǎn)位于相同路徑的節(jié)點(diǎn)對應(yīng)的文本;備選節(jié)點(diǎn)確定單元,用于對聚類處理單元獲得的每個(gè)訓(xùn)練網(wǎng)頁子集合,確定合并單元獲得的該訓(xùn)練網(wǎng)頁子集合的合并后的DOM樹中的備選節(jié)點(diǎn),所述備選節(jié)點(diǎn)對應(yīng)的文本集合中不同文本的數(shù)量與該文本集合中包含文本總數(shù)的比值超過設(shè)定閾值;選擇單元,用于獲取信息時(shí),從各訓(xùn)練網(wǎng)頁子集合中選擇出一個(gè)訓(xùn)練網(wǎng)頁子集合, 該選擇出的訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后的DOM樹與待獲取信息的網(wǎng)頁的DOM樹的拓?fù)浣Y(jié)構(gòu)最相似;獲取單元,用于將待獲取信息的網(wǎng)頁的DOM樹中與選擇單元選擇出的訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后的DOM樹中備選節(jié)點(diǎn)具有相同路徑的節(jié)點(diǎn)對應(yīng)的文本作為獲取到的感興趣信息。本申請實(shí)施例首先根據(jù)訓(xùn)練網(wǎng)頁(訓(xùn)練網(wǎng)頁是指事先經(jīng)過人為標(biāo)定的、包含感興趣信息的現(xiàn)有網(wǎng)頁)集合中各訓(xùn)練網(wǎng)頁的DOM樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行聚類,獲得至少一個(gè)訓(xùn)練網(wǎng)頁子集合,所述每個(gè)訓(xùn)練網(wǎng)頁子集合中的訓(xùn)練網(wǎng)頁都是基于相似、但不一定完全相同的模板生成的,并確定每個(gè)訓(xùn)練網(wǎng)頁子集合對應(yīng)的能夠體現(xiàn)其中每個(gè)訓(xùn)練網(wǎng)頁的拓?fù)浣Y(jié)構(gòu)的合并DOM樹中,對應(yīng)的文本為感興趣信息的備選節(jié)點(diǎn)所在的路徑;在從待獲取信息的網(wǎng)頁中獲取信息時(shí),從各訓(xùn)練網(wǎng)頁子集合中選擇出包含的訓(xùn)練網(wǎng)頁的DOM樹與待獲取信息的網(wǎng)頁的DOM樹具最相似的拓?fù)浣Y(jié)構(gòu)的訓(xùn)練網(wǎng)頁子集合,并根據(jù)選擇出的訓(xùn)練網(wǎng)頁子集合的備選節(jié)點(diǎn)的路徑,從待獲取信息的網(wǎng)頁的DOM樹中獲取感興趣信息。通過上述聚類過程概括出大量訓(xùn)練網(wǎng)頁的DOM樹所共有的拓?fù)涮卣?,并得到感興趣信息在待獲取信息的網(wǎng)頁的 DOM樹中的大致位置,只要待獲取信息的網(wǎng)頁的DOM樹與訓(xùn)練網(wǎng)頁的DOM樹具有類似的拓?fù)浣Y(jié)構(gòu),即可從待獲取信息的網(wǎng)頁提取到感興趣信息,從而克服了現(xiàn)有技術(shù)在待獲取信息的網(wǎng)頁的DOM樹與訓(xùn)練網(wǎng)頁的DOM樹僅有細(xì)微差別時(shí),就無法從待獲取信息的網(wǎng)頁中獲取感興趣信息的問題。
圖1為現(xiàn)有技術(shù)根據(jù)網(wǎng)頁的HTML代碼,解析獲得的對應(yīng)DOM樹的結(jié)構(gòu)示意圖;圖2為本申請實(shí)施例的主要實(shí)現(xiàn)原理流程圖;圖3a、圖3b、圖3c和圖3d分別為本申請實(shí)施例中幾個(gè)訓(xùn)練網(wǎng)頁對應(yīng)的DOM樹的結(jié)構(gòu)示意圖;圖如為本申請實(shí)施例對訓(xùn)練網(wǎng)頁進(jìn)行聚類處理的第一種流程圖;圖4b為本申請實(shí)施例對訓(xùn)練網(wǎng)頁進(jìn)行聚類處理的第二種流程圖;圖5ajb、5C、5d、5e、5f、5g、^i分別為本申請實(shí)施例對訓(xùn)練網(wǎng)頁進(jìn)行聚類處理時(shí), 確定各網(wǎng)頁的DOM樹中相同節(jié)點(diǎn)的示意圖;圖6為本申請實(shí)施例基于確定出的各訓(xùn)練網(wǎng)頁子集合,確定每個(gè)訓(xùn)練網(wǎng)頁子集合對應(yīng)的模板文件的流程圖;圖7a為本申請實(shí)施例確定每個(gè)訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后的DOM樹時(shí)網(wǎng)頁1 對應(yīng)的基礎(chǔ)樹的示意圖;圖7b為本申請實(shí)施例確定每個(gè)訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后的DOM樹時(shí),該訓(xùn)練網(wǎng)頁子集合中的網(wǎng)頁2的DOM樹的示意圖;圖7c為本申請實(shí)施例確定每個(gè)訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后的DOM樹的示意圖;圖8為本申請實(shí)施例從待獲取信息的網(wǎng)頁中獲取感興趣信息的流程圖;圖9a為本申請實(shí)施例提供的獲取網(wǎng)頁中的感興趣信息的裝置應(yīng)用場景的示意圖;圖9b為本申請實(shí)施例提供的獲取網(wǎng)頁中的感興趣信息的裝置的結(jié)構(gòu)示意圖;圖10為本申請實(shí)施例提供的獲取網(wǎng)頁中的感興趣信息的裝置中聚類處理單元的結(jié)構(gòu)示意圖;圖11為本申請實(shí)施例提供的獲取網(wǎng)頁中的感興趣信息的裝置中選擇單元的結(jié)構(gòu)示意圖;圖12為本申請實(shí)施例提供的獲取網(wǎng)頁中的感興趣信息的裝置中合并單元的結(jié)構(gòu)示意圖;圖13為本申請實(shí)施例提供的另一種獲取網(wǎng)頁中的感興趣信息的裝置的結(jié)構(gòu)示意圖。
具體實(shí)施例方式由于現(xiàn)有的從網(wǎng)頁中獲取感興趣信息的方案均不能較好地適應(yīng)網(wǎng)頁模板的變化, 因而影響信息獲取效果。針對該問題,本申請實(shí)施例提出首先基于網(wǎng)頁對應(yīng)的DOM樹拓?fù)浣Y(jié)構(gòu)的相似性,將先經(jīng)過人為標(biāo)定的、包含感興趣信息的現(xiàn)有網(wǎng)頁作為訓(xùn)練網(wǎng)頁,對大量訓(xùn)練網(wǎng)頁進(jìn)行聚類處理,獲得至少一個(gè)訓(xùn)練網(wǎng)頁子集合,所述每個(gè)訓(xùn)練網(wǎng)頁子集合中包含的訓(xùn)練網(wǎng)頁對應(yīng)的DOM樹都具有類似的拓?fù)浣Y(jié)構(gòu);然后針對每個(gè)訓(xùn)練網(wǎng)頁子集合,獲取對應(yīng)的合并后的DOM樹,該合并后的DOM樹的各個(gè)節(jié)點(diǎn)對應(yīng)的文本集合中包含每個(gè)訓(xùn)練網(wǎng)頁對應(yīng)的DOM樹中相同路徑位置上節(jié)點(diǎn)對應(yīng)的文本,依據(jù)合并后的DOM樹中每個(gè)節(jié)點(diǎn)對應(yīng)的文本集合包含的相同文本出現(xiàn)的頻率,剔除噪聲節(jié)點(diǎn)(例如廣告等無用信息),確定包含有用信息的備選節(jié)點(diǎn)在合并后的DOM樹中的路徑;確定與待獲取信息的網(wǎng)頁對應(yīng)的DOM樹在拓?fù)浣Y(jié)構(gòu)上最為相似的訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后的DOM樹,并根據(jù)該DOM樹中備選節(jié)點(diǎn)的路徑,從待獲取信息的網(wǎng)頁中獲取感興趣的信息。下面結(jié)合各個(gè)附圖對本申請實(shí)施例技術(shù)方案的主要實(shí)現(xiàn)原理具體實(shí)施方式
及其對應(yīng)能夠達(dá)到的有益效果進(jìn)行詳細(xì)的闡述。如圖2所示,在本實(shí)施例提供的獲取網(wǎng)頁中的特定信息的方案中,主要包含兩個(gè)處理階段步驟10,訓(xùn)練階段對訓(xùn)練網(wǎng)頁集合中各訓(xùn)練網(wǎng)頁的DOM樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行聚類, 獲得至少一個(gè)訓(xùn)練網(wǎng)頁子集合,所述每個(gè)訓(xùn)練網(wǎng)頁子集合中的訓(xùn)練網(wǎng)頁的DOM數(shù)都具有相似的拓?fù)浣Y(jié)構(gòu),并且,確定每個(gè)訓(xùn)練網(wǎng)頁子集合對應(yīng)的模板文件,獲取的模板文件用于后續(xù)對待獲取文本的網(wǎng)頁進(jìn)行模板匹配并從中獲取感興趣的信息,模板文件包含該訓(xùn)練網(wǎng)頁子集合各訓(xùn)練網(wǎng)頁DOM樹的拓?fù)涮卣?、以及感興趣信息所在備選節(jié)點(diǎn)的路徑信息;步驟20,信息獲取階段根據(jù)訓(xùn)練階段確定出的各模板文件,從各訓(xùn)練網(wǎng)頁子集合中選擇出包含的訓(xùn)練網(wǎng)頁的DOM樹的拓?fù)涮卣髋c待獲取信息的網(wǎng)頁的DOM樹具最相似訓(xùn)練網(wǎng)頁子集合,并將待獲取信息的網(wǎng)頁的DOM樹中與模板文件中備選節(jié)點(diǎn)具有相同路徑的節(jié)點(diǎn)的文本作為獲取到的感興趣信息。下面將依據(jù)本申請上述申請?jiān)?,詳?xì)介紹一個(gè)實(shí)施例來對本申請方法的主要實(shí)現(xiàn)原理進(jìn)行詳細(xì)的闡述和說明。在確定各個(gè)模板文件的過程中,為了能夠獲得更佳的效果,訓(xùn)練網(wǎng)頁集合應(yīng)包含大量訓(xùn)練網(wǎng)頁,在本實(shí)施例中為簡明起見,訓(xùn)練網(wǎng)頁集合中有4個(gè)網(wǎng)頁,分別為網(wǎng)頁1、網(wǎng)頁 2、網(wǎng)頁3和網(wǎng)頁4,解析獲得每個(gè)網(wǎng)頁的DOM樹分別如附圖3a、附圖3b、附圖3c和附圖3d 所示。本申請實(shí)施例通過以下兩步對訓(xùn)練階段進(jìn)行詳細(xì)描述第一步,根據(jù)DOM樹的拓?fù)浣Y(jié)構(gòu),對訓(xùn)練網(wǎng)頁集合中的訓(xùn)練網(wǎng)頁進(jìn)行聚類處理,確定至少一個(gè)DOM樹具有相似的拓?fù)浣Y(jié)構(gòu)的訓(xùn)練網(wǎng)頁子集合(即每個(gè)確定出的訓(xùn)練網(wǎng)頁子集合中的訓(xùn)練網(wǎng)頁的DOM樹都具有相似的拓?fù)浣Y(jié)構(gòu)),拓?fù)浣Y(jié)構(gòu)的相似性可以用多種預(yù)定的判定準(zhǔn)則來衡量,例如在本實(shí)施例中,根據(jù)兩個(gè)網(wǎng)頁分別對應(yīng)的DOM樹中具有相同節(jié)點(diǎn)數(shù)量的多少來衡量拓?fù)浣Y(jié)構(gòu)的相似性,根據(jù)在兩個(gè)網(wǎng)頁分別對應(yīng)的DOM樹中具有相同節(jié)點(diǎn)數(shù)量是否超過設(shè)定閾值來判定這兩個(gè)網(wǎng)頁是否相似,下面給出了兩個(gè)基于上述相似性的判定準(zhǔn)則進(jìn)行聚類的具體實(shí)例實(shí)例一建立一個(gè)訓(xùn)練網(wǎng)頁子集合,將訓(xùn)練網(wǎng)頁集合中任一訓(xùn)練網(wǎng)頁加入該訓(xùn)練網(wǎng)頁子集合中,對訓(xùn)練網(wǎng)頁集合中未加入訓(xùn)練網(wǎng)頁子集合的每個(gè)剩余訓(xùn)練網(wǎng)頁,執(zhí)行按照設(shè)定順序,確定該剩余訓(xùn)練網(wǎng)頁的DOM樹與已有訓(xùn)練網(wǎng)頁子集合中包含的訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)的數(shù)量,所述相同節(jié)點(diǎn)為在DOM樹中的層次位置和包含的子節(jié)點(diǎn)的數(shù)量均相同的節(jié)點(diǎn),以及在確定出的相同節(jié)點(diǎn)數(shù)量超過設(shè)定閾值時(shí),將該剩余訓(xùn)練網(wǎng)頁加入選擇出的訓(xùn)練網(wǎng)頁子集合;否則,重復(fù)前一步驟,直到設(shè)定順序上的最后一個(gè)已有訓(xùn)練網(wǎng)頁子集合為止;在該剩余訓(xùn)練網(wǎng)頁的DOM樹與所有訓(xùn)練網(wǎng)頁子集合中包含的訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)的數(shù)量均未超過設(shè)定閾值時(shí),建立一個(gè)新的訓(xùn)練網(wǎng)頁子集合,將該剩余訓(xùn)練網(wǎng)頁加入該新的訓(xùn)練網(wǎng)頁子集合。請參照附圖4a,具體流程描述如下步驟401,建立一個(gè)訓(xùn)練網(wǎng)頁子集合,將訓(xùn)練網(wǎng)頁集合中的任一訓(xùn)練網(wǎng)頁加入該訓(xùn)練網(wǎng)頁子集合中;步驟402,判斷訓(xùn)練網(wǎng)頁集合中是否存在未加入已有訓(xùn)練網(wǎng)頁子集合的剩余訓(xùn)練網(wǎng)頁,如果是,執(zhí)行403,如果否轉(zhuǎn)步驟409 ;步驟403,讀取一剩余訓(xùn)練網(wǎng)頁;步驟404,按照設(shè)定順序讀取一訓(xùn)練網(wǎng)頁子集合,計(jì)算步驟403讀取的該剩余訓(xùn)練網(wǎng)頁的DOM樹與該讀取的訓(xùn)練網(wǎng)頁子集合中的訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)的數(shù)量,所述相同節(jié)點(diǎn)是指在DOM樹中的路徑和所包含的子節(jié)點(diǎn)的數(shù)量均相同的節(jié)點(diǎn);所述設(shè)定順序可以是任意設(shè)定的,只要該順序能夠確保所有的訓(xùn)練網(wǎng)頁子集合被讀取即可。步驟405,判斷步驟404計(jì)算出的相同節(jié)點(diǎn)的數(shù)量是否超過設(shè)定閾值,若是,進(jìn)入步驟406,否則,進(jìn)入步驟407 ;步驟406,將該剩余訓(xùn)練網(wǎng)頁加入該訓(xùn)練網(wǎng)頁子集合中,該剩余訓(xùn)練網(wǎng)頁的處理結(jié)束,轉(zhuǎn)步驟402 ;步驟407,判斷該訓(xùn)練網(wǎng)頁子集合是否為所述設(shè)定順序上的最后一個(gè)訓(xùn)練網(wǎng)頁子集合,若是,進(jìn)入步驟408,否則轉(zhuǎn)步驟404 ;步驟408,建立一個(gè)新的訓(xùn)練網(wǎng)頁子集合,將該剩余訓(xùn)練網(wǎng)頁加入該新的訓(xùn)練網(wǎng)頁子集合,該剩余訓(xùn)練網(wǎng)頁的處理結(jié)束,轉(zhuǎn)步驟402;步驟409,結(jié)束。實(shí)例二建立一個(gè)訓(xùn)練網(wǎng)頁子集合,將訓(xùn)練網(wǎng)頁集合中任一訓(xùn)練網(wǎng)頁加入該訓(xùn)練網(wǎng)頁子集合中,對訓(xùn)練網(wǎng)頁集合中未加入已有訓(xùn)練網(wǎng)頁子集合的每個(gè)剩余訓(xùn)練網(wǎng)頁,執(zhí)行確定該剩余訓(xùn)練網(wǎng)頁的DOM樹與每個(gè)已有訓(xùn)練網(wǎng)頁子集合中包含的訓(xùn)練網(wǎng)頁的 DOM樹具有相同節(jié)點(diǎn)的數(shù)量,所述相同節(jié)點(diǎn)為在DOM樹中的層次位置和包含的子節(jié)點(diǎn)的數(shù)量均相同的節(jié)點(diǎn),以及在已有訓(xùn)練網(wǎng)頁子集合中選擇出包含的訓(xùn)練網(wǎng)頁的DOM樹與該剩余訓(xùn)練網(wǎng)頁的 DOM樹具有相同節(jié)點(diǎn)數(shù)量最多的訓(xùn)練網(wǎng)頁子集合;以及
在選擇出的訓(xùn)練網(wǎng)頁子集合包含的訓(xùn)練網(wǎng)頁的DOM樹與該剩余訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)數(shù)量超過設(shè)定閾值時(shí),將該剩余訓(xùn)練網(wǎng)頁加入選擇出的訓(xùn)練網(wǎng)頁子集合;否則,建立一個(gè)新的訓(xùn)練網(wǎng)頁子集合,將該剩余訓(xùn)練網(wǎng)頁加入該新的訓(xùn)練網(wǎng)頁子集合。請參照附圖4b,具體流程描述如下步驟411,建立一個(gè)訓(xùn)練網(wǎng)頁子集合,將訓(xùn)練網(wǎng)頁集合中的任一訓(xùn)練網(wǎng)頁加入該訓(xùn)練網(wǎng)頁子集合中;步驟412,判斷訓(xùn)練網(wǎng)頁集合中是否存在未加入已有訓(xùn)練網(wǎng)頁子集合的剩余訓(xùn)練網(wǎng)頁,如果是,執(zhí)行步驟413,如果否轉(zhuǎn)步驟419 ;步驟413,讀取一剩余訓(xùn)練網(wǎng)頁;步驟414,計(jì)算步驟413讀取的該剩余訓(xùn)練網(wǎng)頁的DOM樹分別與每個(gè)已有訓(xùn)練網(wǎng)頁子集合中包含的訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)的數(shù)量,所述相同節(jié)點(diǎn)是指在DOM樹中的路徑和所包含的子節(jié)點(diǎn)的數(shù)量均相同的節(jié)點(diǎn);步驟415,根據(jù)步驟414計(jì)算出的該剩余訓(xùn)練網(wǎng)頁的DOM樹與每個(gè)已有訓(xùn)練網(wǎng)頁子集合中的訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)的數(shù)量,在已有訓(xùn)練網(wǎng)頁子集合中選擇包含的訓(xùn)練網(wǎng)頁的DOM樹與該剩余訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)數(shù)量最多的訓(xùn)練網(wǎng)頁子集合,進(jìn)入步驟416 ;步驟416,判斷步驟415選擇出的訓(xùn)練網(wǎng)頁子集合包含的訓(xùn)練網(wǎng)頁的DOM樹與該剩余訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)數(shù)量是否超過設(shè)定閾值,若是進(jìn)入步驟417,否則轉(zhuǎn)步驟 418 ;步驟417,將該剩余訓(xùn)練網(wǎng)頁加入步驟415選擇出的訓(xùn)練網(wǎng)頁子集合,該剩余訓(xùn)練網(wǎng)頁的處理結(jié)束,轉(zhuǎn)步驟412 ;步驟418,建立一個(gè)新的訓(xùn)練網(wǎng)頁子集合,將該剩余訓(xùn)練網(wǎng)頁加入該新的訓(xùn)練網(wǎng)頁子集合,該剩余訓(xùn)練網(wǎng)頁的處理結(jié)束,轉(zhuǎn)步驟412;步驟419,結(jié)束。當(dāng)采用實(shí)例二的方法選擇出了至少兩個(gè)訓(xùn)練網(wǎng)頁子集合(即至少兩個(gè)訓(xùn)練網(wǎng)頁子集合包含的訓(xùn)練網(wǎng)頁的DOM樹與該其余訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)數(shù)量相同、且該數(shù)量在所有訓(xùn)練網(wǎng)頁子集合包含的訓(xùn)練網(wǎng)頁的DOM樹與該其余訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)數(shù)量中是最多的、并且該數(shù)量超過了設(shè)定閾值)時(shí),可以將該未歸入任一訓(xùn)練網(wǎng)頁子集合的其他訓(xùn)練網(wǎng)頁歸入這兩個(gè)訓(xùn)練網(wǎng)頁子集合其中的任意一個(gè)訓(xùn)練網(wǎng)頁子集合中。舉例來說,在本實(shí)施例中首先以網(wǎng)頁1作為第一訓(xùn)練網(wǎng)頁子集合的訓(xùn)練網(wǎng)頁,當(dāng)然也可以將網(wǎng)頁2、網(wǎng)頁3或網(wǎng)頁4先作為第一訓(xùn)練網(wǎng)頁子集合的訓(xùn)練網(wǎng)頁;然后確定網(wǎng)頁2的DOM樹與第一訓(xùn)練網(wǎng)頁子集合中網(wǎng)頁1的DOM數(shù)具有相同節(jié)點(diǎn)的數(shù)量為4個(gè),占網(wǎng)頁2的DOM樹的總節(jié)點(diǎn)數(shù)量的67%,如附圖5a、附圖恥所示,黑色的節(jié)點(diǎn)作為網(wǎng)頁2與網(wǎng)頁1相同的節(jié)點(diǎn),假定進(jìn)行訓(xùn)練節(jié)點(diǎn)聚類時(shí)的設(shè)定閾值為60%,那么網(wǎng)頁 2與網(wǎng)頁1具有相同節(jié)點(diǎn)的數(shù)量占網(wǎng)頁2總節(jié)點(diǎn)數(shù)量的比例67%高于設(shè)定閾值60%,那么將網(wǎng)頁2加入第一訓(xùn)練網(wǎng)頁子集合中。然后,確定網(wǎng)頁3的DOM樹與第一訓(xùn)練網(wǎng)頁子集合中網(wǎng)頁1的DOM數(shù)具有相同節(jié)點(diǎn)的數(shù)量為0個(gè),占網(wǎng)頁2總節(jié)點(diǎn)數(shù)量的0%,如附圖5c、附圖5d所示,白色的節(jié)點(diǎn)作為網(wǎng)頁2與網(wǎng)頁1不相同的節(jié)點(diǎn),那么網(wǎng)頁3與網(wǎng)頁1具有相同節(jié)點(diǎn)的數(shù)量占網(wǎng)頁3總節(jié)點(diǎn)數(shù)量的比例0%低于設(shè)定閾值60%,那么將網(wǎng)頁3加入一個(gè)新的訓(xùn)練網(wǎng)頁子集合一一第二訓(xùn)練網(wǎng)頁子集合中。同理,確定網(wǎng)頁4的DOM樹與第一訓(xùn)練網(wǎng)頁子集合中網(wǎng)頁1的DOM數(shù)具有相同節(jié)點(diǎn)的數(shù)量為0個(gè),占網(wǎng)頁2總節(jié)點(diǎn)數(shù)量的0%,如附圖5e、附圖5f所示,白色的節(jié)點(diǎn)作為網(wǎng)頁4與網(wǎng)頁1不相同的節(jié)點(diǎn),那么網(wǎng)頁4與網(wǎng)頁1具有相同節(jié)點(diǎn)的數(shù)量占網(wǎng)頁2總節(jié)點(diǎn)數(shù)量的比例0%低設(shè)定閾值60% ;此后,確定網(wǎng)頁4的DOM樹與第二訓(xùn)練網(wǎng)頁子集合中網(wǎng)頁3 的DOM數(shù)具有相同節(jié)點(diǎn)的數(shù)量為4個(gè),占網(wǎng)頁4的DOM樹的總節(jié)點(diǎn)數(shù)量的67%,如附圖5g、 附圖證所示,黑色的節(jié)點(diǎn)作為網(wǎng)頁4與網(wǎng)頁3相同的節(jié)點(diǎn),那么網(wǎng)頁4與網(wǎng)頁3具有相同節(jié)點(diǎn)的數(shù)量占網(wǎng)頁4總節(jié)點(diǎn)數(shù)量的比例67%高于設(shè)定閾值60%,那么將網(wǎng)頁4加入第二訓(xùn)練網(wǎng)頁子集合中。如果訓(xùn)練網(wǎng)頁集合中還有更多的訓(xùn)練網(wǎng)頁,也逐個(gè)進(jìn)行上述聚類處理,直到所有訓(xùn)練網(wǎng)頁都被歸入各訓(xùn)練網(wǎng)頁子集合為止。比較實(shí)例一和實(shí)例二,實(shí)例一中的方案在進(jìn)行聚類時(shí),速度較快,假定有10個(gè)訓(xùn)練網(wǎng)頁子集合,可能在比較剩余網(wǎng)頁和第二個(gè)訓(xùn)練網(wǎng)頁子集合中的訓(xùn)練網(wǎng)頁時(shí),二者DOM 樹具有相同節(jié)點(diǎn)的數(shù)量超過設(shè)定閾值,那么直接將剩余網(wǎng)頁加入第二個(gè)訓(xùn)練網(wǎng)頁子集合即可,無需再計(jì)算剩余網(wǎng)頁的DOM樹和其余8個(gè)訓(xùn)練網(wǎng)頁子集合中訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)的數(shù)量、以及判斷是否超過設(shè)定閾值;而實(shí)例二的聚類效果較好,能將每個(gè)剩余網(wǎng)頁都?xì)w入拓?fù)浣Y(jié)構(gòu)最相似的訓(xùn)練網(wǎng)頁子集合中,不過聚類處理耗費(fèi)的時(shí)間較實(shí)例一中方案耗費(fèi)的時(shí)間長。第二步在已確定各個(gè)訓(xùn)練網(wǎng)頁子集合的基礎(chǔ)上,確定各個(gè)訓(xùn)練網(wǎng)頁子集合對應(yīng)的模板文件請參照附圖6所示,針對每個(gè)訓(xùn)練網(wǎng)頁子集合,執(zhí)行步驟601,根據(jù)該訓(xùn)練網(wǎng)頁子集合中包含的各個(gè)訓(xùn)練網(wǎng)頁的文檔的對象模型樹,確定該訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后的DOM樹,所述合并后的文檔對象模型樹包含各個(gè)訓(xùn)練網(wǎng)頁的文檔對象模型樹中的節(jié)點(diǎn),所述合并后的DOM樹中的每個(gè)節(jié)點(diǎn)對應(yīng)的文本集合中包括各個(gè)訓(xùn)練網(wǎng)頁的文檔對象模型樹中相同路徑的節(jié)點(diǎn)對應(yīng)的文本;以第一訓(xùn)練網(wǎng)頁子集合為例,首先將第一訓(xùn)練網(wǎng)頁子集合中網(wǎng)頁1的DOM樹作為基礎(chǔ)樹,確定網(wǎng)頁2的DOM樹與基礎(chǔ)樹的相同節(jié)點(diǎn)、以及不同節(jié)點(diǎn)。附圖7a為第一訓(xùn)練網(wǎng)頁子集合的基礎(chǔ)樹,圖7b為網(wǎng)頁2的DOM樹,與附圖5a—樣黑色節(jié)點(diǎn)為相同節(jié)點(diǎn),白色節(jié)點(diǎn)為不同節(jié)點(diǎn),這里分別為各節(jié)點(diǎn)進(jìn)行了標(biāo)注,使用一個(gè)向量來表示每個(gè)節(jié)點(diǎn)的拓?fù)湫畔ⅲ?其中第一個(gè)分量表示該節(jié)點(diǎn)在DOM樹中的層次,對應(yīng)圖中第一位數(shù)字。第二個(gè)分量表示該節(jié)點(diǎn)在本層次所有節(jié)點(diǎn)中的序號,對應(yīng)圖中第二位數(shù)字。第三個(gè)分量表示該節(jié)點(diǎn)所包含的文本,對應(yīng)圖中括號內(nèi)的文本。對于網(wǎng)頁2的DOM樹中的每個(gè)節(jié)點(diǎn)而言如果在基礎(chǔ)樹中存在相同節(jié)點(diǎn),在基礎(chǔ)樹中相同節(jié)點(diǎn)的文本集合中加入該節(jié)點(diǎn)的文本。例如第一訓(xùn)練網(wǎng)頁子集合的合并后的DOM樹中節(jié)點(diǎn)41的文本集合為(cd,de);如果在基礎(chǔ)樹中不存在相同節(jié)點(diǎn),在基礎(chǔ)樹中與該節(jié)點(diǎn)在網(wǎng)頁2的DOM樹上同樣的位置上新加入一個(gè)節(jié)點(diǎn),將該節(jié)點(diǎn)的文本作為基礎(chǔ)樹上新加入節(jié)點(diǎn)對應(yīng)的文本集合中的文本,基礎(chǔ)樹上新加入節(jié)點(diǎn)43的文本集合為(fg)。第一訓(xùn)練網(wǎng)頁子集合的合并后的DOM樹如附圖7c所示。如果第一訓(xùn)練網(wǎng)頁子集合中還存在其他訓(xùn)練網(wǎng)頁,則重復(fù)上述網(wǎng)頁2的處理,直
1到將第一訓(xùn)練網(wǎng)頁子集合中所有的訓(xùn)練網(wǎng)頁的DOM樹中的節(jié)點(diǎn)合并到基礎(chǔ)樹中為止,合并后的基礎(chǔ)樹作為第一訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后的DOM樹。為了便于描述后續(xù)步驟,假定第一訓(xùn)練網(wǎng)頁子集合還包含更多的訓(xùn)練網(wǎng)頁,那么合并后DOM樹中各節(jié)點(diǎn)的文本集合如表1所示。表1第一訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后DOM樹中各節(jié)點(diǎn)的文本集合
權(quán)利要求
1.一種獲取網(wǎng)頁中的感興趣信息的方法,其特征在于,包括根據(jù)DOM樹的拓?fù)浣Y(jié)構(gòu),對訓(xùn)練網(wǎng)頁集合中各訓(xùn)練網(wǎng)頁進(jìn)行聚類,獲得至少一個(gè)DOM樹具有相似的拓?fù)浣Y(jié)構(gòu)的訓(xùn)練網(wǎng)頁子集合;對每個(gè)所述訓(xùn)練網(wǎng)頁子集合中各個(gè)訓(xùn)練網(wǎng)頁的DOM樹分別進(jìn)行合并,合并后的DOM樹中的每個(gè)節(jié)點(diǎn)對應(yīng)的文本集合中包括該訓(xùn)練網(wǎng)頁子集合中各個(gè)訓(xùn)練網(wǎng)頁的DOM樹中與該節(jié)點(diǎn)位于相同路徑的節(jié)點(diǎn)對應(yīng)的文本;確定合并后的DOM樹中的備選節(jié)點(diǎn),所述備選節(jié)點(diǎn)對應(yīng)的文本集合中不同文本的數(shù)量與該文本集合中包含文本總數(shù)的比值超過設(shè)定閾值;獲取信息時(shí),從各訓(xùn)練網(wǎng)頁子集合中選擇出一個(gè)訓(xùn)練網(wǎng)頁子集合,該選擇出的訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后的DOM樹與待獲取信息的網(wǎng)頁的DOM樹的拓?fù)浣Y(jié)構(gòu)最相似,將待獲取信息的網(wǎng)頁的DOM樹中與選擇出的訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后的DOM樹中備選節(jié)點(diǎn)具有相同路徑的節(jié)點(diǎn)對應(yīng)的文本作為獲取到的感興趣信息。
2.如權(quán)利要求1所述的方法,其特征在于,根據(jù)訓(xùn)練網(wǎng)頁集合中各訓(xùn)練網(wǎng)頁的DOM樹的拓?fù)浣Y(jié)構(gòu)對所述各訓(xùn)練網(wǎng)頁進(jìn)行聚類,獲得訓(xùn)練網(wǎng)頁子集合,具體包括建立一個(gè)訓(xùn)練網(wǎng)頁子集合,將訓(xùn)練網(wǎng)頁集合中任一訓(xùn)練網(wǎng)頁加入該訓(xùn)練網(wǎng)頁子集合中,對訓(xùn)練網(wǎng)頁集合中未加入已有訓(xùn)練網(wǎng)頁子集合的每個(gè)剩余訓(xùn)練網(wǎng)頁,執(zhí)行確定該剩余訓(xùn)練網(wǎng)頁的DOM樹與每個(gè)已有訓(xùn)練網(wǎng)頁子集合中包含的訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)的數(shù)量,所述相同節(jié)點(diǎn)為在DOM樹中的層次位置和包含的子節(jié)點(diǎn)的數(shù)量均相同的節(jié)點(diǎn),以及在已有訓(xùn)練網(wǎng)頁子集合中選擇出包含的訓(xùn)練網(wǎng)頁的DOM樹與該剩余訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)數(shù)量最多的訓(xùn)練網(wǎng)頁子集合;以及在選擇出的訓(xùn)練網(wǎng)頁子集合包含的訓(xùn)練網(wǎng)頁的DOM樹與該剩余訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)數(shù)量超過設(shè)定閾值時(shí),將該剩余訓(xùn)練網(wǎng)頁加入選擇出的訓(xùn)練網(wǎng)頁子集合;否則,建立一個(gè)新的訓(xùn)練網(wǎng)頁子集合,將該剩余訓(xùn)練網(wǎng)頁加入該新的訓(xùn)練網(wǎng)頁子集合。
3.如權(quán)利要求1所述的方法,其特征在于,根據(jù)訓(xùn)練網(wǎng)頁集合中各訓(xùn)練網(wǎng)頁的DOM樹的拓?fù)浣Y(jié)構(gòu)對所述各訓(xùn)練網(wǎng)頁進(jìn)行聚類,獲得訓(xùn)練網(wǎng)頁子集合,具體包括建立一個(gè)訓(xùn)練網(wǎng)頁子集合,將訓(xùn)練網(wǎng)頁集合中任一訓(xùn)練網(wǎng)頁加入該訓(xùn)練網(wǎng)頁子集合中,對訓(xùn)練網(wǎng)頁集合中未加入訓(xùn)練網(wǎng)頁子集合的每個(gè)剩余訓(xùn)練網(wǎng)頁,執(zhí)行按照設(shè)定順序,確定該剩余訓(xùn)練網(wǎng)頁的DOM樹與已有訓(xùn)練網(wǎng)頁子集合中包含的訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)的數(shù)量,所述相同節(jié)點(diǎn)為在DOM樹中的層次位置和包含的子節(jié)點(diǎn)的數(shù)量均相同的節(jié)點(diǎn),以及在確定出的相同節(jié)點(diǎn)數(shù)量超過設(shè)定閾值時(shí),將該剩余訓(xùn)練網(wǎng)頁加入選擇出的訓(xùn)練網(wǎng)頁子集合;否則,重復(fù)前一步驟,直到設(shè)定順序上的最后一個(gè)已有訓(xùn)練網(wǎng)頁子集合為止;在該剩余訓(xùn)練網(wǎng)頁的DOM樹與所有訓(xùn)練網(wǎng)頁子集合中包含的訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)的數(shù)量均未超過設(shè)定閾值時(shí),建立一個(gè)新的訓(xùn)練網(wǎng)頁子集合,將該剩余訓(xùn)練網(wǎng)頁加入該新的訓(xùn)練網(wǎng)頁子集合。
4.如權(quán)利要求1至3中任一權(quán)利要求所述的方法,其特征在于,從各訓(xùn)練網(wǎng)頁子集合中選擇出一個(gè)訓(xùn)練網(wǎng)頁子集合,該選擇出的訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后的DOM樹與待獲取信息的網(wǎng)頁的DOM樹的拓?fù)浣Y(jié)構(gòu)最相似,具體包括確定該待獲取信息的網(wǎng)頁的DOM樹與每個(gè)訓(xùn)練網(wǎng)頁子集合中對應(yīng)的合并后的DOM樹具有相同節(jié)點(diǎn)的數(shù)量,所述相同節(jié)點(diǎn)為在DOM樹中的層次位置和包含的子節(jié)點(diǎn)的數(shù)量均相同的節(jié)點(diǎn);以及選擇出對應(yīng)的合并后的DOM樹與該待獲取信息的網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)的數(shù)量最多的訓(xùn)練網(wǎng)頁子集合。
5.如權(quán)利要求1至3中任一權(quán)利要求所述的方法,其特征在于,對每個(gè)所述訓(xùn)練網(wǎng)頁子集合中各個(gè)訓(xùn)練網(wǎng)頁的DOM樹分別進(jìn)行合并,具體包括以訓(xùn)練網(wǎng)頁子集合中任一訓(xùn)練網(wǎng)頁的DOM樹為基礎(chǔ)樹,逐一對該訓(xùn)練網(wǎng)頁子集合中每一剩余訓(xùn)練網(wǎng)頁的DOM樹中的每個(gè)節(jié)點(diǎn)執(zhí)行在基礎(chǔ)樹中存在相同節(jié)點(diǎn)時(shí),將該節(jié)點(diǎn)對應(yīng)的文本加入基礎(chǔ)樹中相同節(jié)點(diǎn)對應(yīng)的文本集合中;在基礎(chǔ)樹中不存在相同節(jié)點(diǎn)時(shí),在基礎(chǔ)樹中新加入一個(gè)節(jié)點(diǎn),所述新加入節(jié)點(diǎn)在基礎(chǔ)樹中的位置與該節(jié)點(diǎn)在該訓(xùn)練網(wǎng)頁的DOM樹中的位置相同,所述新加入節(jié)點(diǎn)對應(yīng)的文本與該節(jié)點(diǎn)對應(yīng)的文本相同。
6.如權(quán)利要求1至3中任一權(quán)利要求所述的方法,其特征在于,確定出每個(gè)訓(xùn)練網(wǎng)頁子集合的備選節(jié)點(diǎn)后,還包括對每個(gè)備選節(jié)點(diǎn)對應(yīng)的文本集合中的每個(gè)文本進(jìn)行分詞處理,確定該文本集合中每個(gè)文本的前綴;在確定出的每個(gè)文本對應(yīng)的前綴中,確定出數(shù)量最多的相同前綴;將確定出的前綴作為該備選節(jié)點(diǎn)的名稱;將待獲取信息的網(wǎng)頁的DOM樹中與選擇出的訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后的DOM樹中備選節(jié)點(diǎn)具有相同路徑的節(jié)點(diǎn)對應(yīng)的文本作為獲取到的感興趣信息,具體包括對待獲取信息的網(wǎng)頁的DOM樹中與選擇出的訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后的DOM樹中的備選節(jié)點(diǎn)具有相同路徑的節(jié)點(diǎn)對應(yīng)的文本進(jìn)行分詞處理,確定該文本中的前綴;用所述備選節(jié)點(diǎn)的名稱替換確定出的該文本中的前綴,以及將替換后的文本作為獲取到的感興趣信息。
7.如權(quán)利要求6所述的方法,其特征在于,確定出備選節(jié)點(diǎn)的名稱后,還包括從預(yù)先存儲的同義詞集合中選擇出該確定出的備選節(jié)點(diǎn)的名稱所在的同義詞集合,每個(gè)所述同義詞集合中都有一個(gè)預(yù)先指定的詞作為該同義詞集合的標(biāo)準(zhǔn)詞;基于選擇出的同義詞集合中的標(biāo)準(zhǔn)詞更新備選節(jié)點(diǎn)的名稱。
8.如權(quán)利要求7所述的方法,其特征在于,在確定備選節(jié)點(diǎn)之前,還包括將合并后的DOM樹中的各節(jié)點(diǎn)對應(yīng)的文本集合中的每個(gè)文本處理為統(tǒng)一格式的文本。
9.如權(quán)利要求6至8中任一權(quán)利要求所述的方法,其特征在于,從待獲取信息的網(wǎng)頁中獲取到感興趣信息后,還包括存儲待獲取信息的網(wǎng)頁的統(tǒng)一資源定位符、以及對應(yīng)存儲從該待獲取信息的網(wǎng)頁中獲取到的感興趣信息。
10.一種獲取網(wǎng)頁中的感興趣信息的裝置,其特征在于,包括聚類處理單元,用于根據(jù)DOM樹的拓?fù)浣Y(jié)構(gòu),對訓(xùn)練網(wǎng)頁集合中各訓(xùn)練網(wǎng)頁進(jìn)行聚類, 獲得至少一個(gè)DOM樹具有相似的拓?fù)浣Y(jié)構(gòu)的訓(xùn)練網(wǎng)頁子集合;合并單元,用于對聚類處理單元獲得的每個(gè)訓(xùn)練網(wǎng)頁子集合中各個(gè)訓(xùn)練網(wǎng)頁的DOM樹分別進(jìn)行合并,合并后的DOM樹中的每個(gè)節(jié)點(diǎn)對應(yīng)的文本集合中包括該訓(xùn)練網(wǎng)頁子集合中各個(gè)訓(xùn)練網(wǎng)頁的DOM樹中與該節(jié)點(diǎn)位于相同路徑的節(jié)點(diǎn)對應(yīng)的文本;備選節(jié)點(diǎn)確定單元,用于對聚類處理單元獲得的每個(gè)訓(xùn)練網(wǎng)頁子集合,確定合并單元獲得的該訓(xùn)練網(wǎng)頁子集合的合并后的DOM樹中的備選節(jié)點(diǎn),所述備選節(jié)點(diǎn)對應(yīng)的文本集合中不同文本的數(shù)量與該文本集合中包含文本總數(shù)的比值超過設(shè)定閾值;選擇單元,用于獲取信息時(shí),從各訓(xùn)練網(wǎng)頁子集合中選擇出一個(gè)訓(xùn)練網(wǎng)頁子集合,該選擇出的訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后的DOM樹與待獲取信息的網(wǎng)頁的DOM樹的拓?fù)浣Y(jié)構(gòu)最相似;獲取單元,用于將待獲取信息的網(wǎng)頁的DOM樹中與選擇單元選擇出的訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后的DOM樹中備選節(jié)點(diǎn)具有相同路徑的節(jié)點(diǎn)對應(yīng)的文本作為獲取到的感興趣信息。
11.如權(quán)利要求10所述的裝置,其特征在于,所述聚類處理單元具體包括 訓(xùn)練網(wǎng)頁子集合建立子單元,用于建立一個(gè)訓(xùn)練網(wǎng)頁子集合,將訓(xùn)練網(wǎng)頁集合中任一訓(xùn)練網(wǎng)頁加入該訓(xùn)練網(wǎng)頁子集合中;確定子單元,用于對訓(xùn)練網(wǎng)頁集合中未加入已有訓(xùn)練網(wǎng)頁子集合的每個(gè)剩余訓(xùn)練網(wǎng)頁,確定該剩余訓(xùn)練網(wǎng)頁的DOM樹與每個(gè)已有訓(xùn)練網(wǎng)頁子集合中包含的訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)的數(shù)量,所述相同節(jié)點(diǎn)為在DOM樹中的層次位置和包含的子節(jié)點(diǎn)的數(shù)量均相同的節(jié)點(diǎn);選擇子單元,用于根據(jù)確定子單元確定出的該剩余訓(xùn)練網(wǎng)頁的DOM樹與每個(gè)已有訓(xùn)練網(wǎng)頁子集合中包含的訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)的數(shù)量,在已有訓(xùn)練網(wǎng)頁子集合中選擇出包含的訓(xùn)練網(wǎng)頁的DOM樹與該剩余訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)數(shù)量最多的訓(xùn)練網(wǎng)頁子集合;判斷子單元,用于判斷選擇子單元選擇出的訓(xùn)練網(wǎng)頁子集合包含的訓(xùn)練網(wǎng)頁的DOM樹與該剩余訓(xùn)練網(wǎng)頁的DOM樹具有相同節(jié)點(diǎn)數(shù)量是否超過設(shè)定閾值,若是,將該剩余訓(xùn)練網(wǎng)頁加入選擇子單元選擇出的訓(xùn)練網(wǎng)頁子集合;否則,觸發(fā)訓(xùn)練網(wǎng)頁子集合建立子單元建立一個(gè)新的訓(xùn)練網(wǎng)頁子集合,將該剩余訓(xùn)練網(wǎng)頁加入該新的訓(xùn)練網(wǎng)頁子集合。
全文摘要
本發(fā)明公開了一種獲取網(wǎng)頁中的感興趣信息的方法及相關(guān)裝置,用以解決現(xiàn)有技術(shù)中無法從大量根據(jù)不同模板生成的網(wǎng)頁中,精確有效地提取感興趣信息的問題。該方法包括根據(jù)DOM樹的拓?fù)浣Y(jié)構(gòu),對各訓(xùn)練網(wǎng)頁進(jìn)行聚類,獲得至少一個(gè)DOM樹具有相似的拓?fù)浣Y(jié)構(gòu)的訓(xùn)練網(wǎng)頁子集合;對每個(gè)訓(xùn)練網(wǎng)頁子集合中各個(gè)訓(xùn)練網(wǎng)頁的DOM樹分別進(jìn)行合并;確定合并后的DOM樹中的備選節(jié)點(diǎn);獲取信息時(shí),從各訓(xùn)練網(wǎng)頁子集合中選擇出一個(gè)訓(xùn)練網(wǎng)頁子集合,并將待獲取信息的網(wǎng)頁的DOM樹中與選擇出的訓(xùn)練網(wǎng)頁子集合對應(yīng)的合并后的DOM樹中備選節(jié)點(diǎn)具有相同路徑的節(jié)點(diǎn)對應(yīng)的文本作為獲取到的感興趣信息。
文檔編號G06F17/30GK102253937SQ201010176808
公開日2011年11月23日 申請日期2010年5月18日 優(yōu)先權(quán)日2010年5月18日
發(fā)明者丁紹順 申請人:阿里巴巴集團(tuán)控股有限公司