一種劃分網(wǎng)頁語義模塊的方法
【專利摘要】本發(fā)明公開了一種劃分網(wǎng)頁語義模塊的方法,在劃分語義模塊時,估算所應(yīng)達到的最深節(jié)點,由該層節(jié)點自下而上,根據(jù)相似度計算逐層推算出語義模塊的頂層節(jié)點集合。本發(fā)明漏刪和誤刪率較低;處理速度快,不但不影響網(wǎng)頁顯示速度,有些情況下還可以提高網(wǎng)頁顯示速度;所需系統(tǒng)資源少,可廣泛應(yīng)用于各種系統(tǒng)包括對硬件成本很敏感的移動設(shè)備和路由器等平臺。
【專利說明】一種劃分網(wǎng)頁語義模塊的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種劃分網(wǎng)頁語義模塊的方法,通過計算權(quán)重的方式確定敏感詞所在上級節(jié)點,自下而上通過相似性等方法迭代擴展節(jié)點集合,實現(xiàn)網(wǎng)頁語義模塊的劃分,從而屏蔽敏感信息。
【背景技術(shù)】
[0002]目前,互聯(lián)網(wǎng)是的廣告和不良信息越來越多,滲透到絕大部分網(wǎng)站,對成人來說尚能接受,但對于未成年卻有極大的負面作用,有必要進行屏蔽。
[0003]目前的不良信息過濾軟件主要針是對整個網(wǎng)頁或網(wǎng)站,通過檢索不良網(wǎng)站的URL數(shù)據(jù)庫辨認要訪問的url是否允許訪問以及檢測網(wǎng)頁中是否含有不良的詞語或圖片,對網(wǎng)頁進行屏蔽,代表軟件有IE的“內(nèi)容審查程序”、“綠壩-花季護航”、“展翅鳥家長控制軟件”(原名“網(wǎng)絡(luò)爸爸綠色上網(wǎng)管家”等專業(yè)的不良信息過濾軟件都采用這種的方法。然而不良信息以各種形式存在,如游戲廣告,通常以動畫或圖片的形式嵌入在普通網(wǎng)頁中,很難識別。一些負面的新聞或桃色新聞經(jīng)?;祀s在各大門戶網(wǎng)站的普通新聞中,一些大型論壇如天涯社區(qū)中也有大量的情色帖子,甚至百度貼吧中也有很多色情信息,而這些網(wǎng)站是主要的新聞和知識的來源(公開課、問題解答等),對整個網(wǎng)站或網(wǎng)頁進行屏蔽的方法用在這些網(wǎng)站上就會得不償失了,需要外科手術(shù)式的方法剔除不良信息,否則會造成因噎廢食的后果。
[0004]外科手術(shù)式的方法在廣告屏蔽軟件中被普遍采用。以“AdMuncher”、“ADSafe”、"ADBlock plus”、“保護傘”為代表的廣告屏蔽軟件通過預(yù)先制定的規(guī)則識別網(wǎng)頁中的廣告,對其進行屏蔽,效果良好。但是它們無法被用來過濾不良信息,原因是目前沒有制訂針對不良信息的過濾規(guī)則。廣告的位置特征(彈出窗口、在網(wǎng)頁左右側(cè))、URL特征(百度網(wǎng)盟推廣、谷歌Adwords推廣)都比較明顯,而不良信息的位置、ulr特征都不明顯,比如門戶網(wǎng)站里隨時可能有強奸、露點的新聞或新聞鏈接,論壇里隨時隨處都可能有情色的主帖或回帖,人工對各種網(wǎng)頁進行分析然后手動制訂規(guī)則的工作量極大,ADBlock中國區(qū)用戶用來過濾廣告的規(guī)則就達到了 4萬多條,針對不良信息的過濾規(guī)則肯定要遠超過這個數(shù)目了,而且預(yù)定義規(guī)則對新生網(wǎng)頁的適應(yīng)性比較差。
[0005]色情網(wǎng)站很容易識別和屏蔽,難的是對混雜在普通網(wǎng)站中的不良信息,因此,理想的不良信息過濾方法應(yīng)能夠定位自然語言語義模塊所在的dom樹節(jié)點范圍,從而能夠單獨易繼包含不良信息的節(jié)點,而不影響其他信息的展示。
[0006]對網(wǎng)頁內(nèi)模塊進行語義分析的方法目前主要有以下幾種:
[0007]I)采用統(tǒng)計學(xué)方法對一定數(shù)量的結(jié)構(gòu)相似的網(wǎng)頁進行分析以生成網(wǎng)頁模板的方法。
[0008]2)基于dom樹節(jié)點間相似度的分塊方法。
[0009]3)基于視覺特征的分塊方法(VIPS及衍生算法)。
[0010]4)基于html標(biāo)簽語義的分塊方法。[0011]由于單個網(wǎng)頁節(jié)點所包含的文本一般比較少,經(jīng)常只有一兩個句子,用統(tǒng)計方法進行語義分析的準確率比較低,通常需要多個相似網(wǎng)頁的輔助來提供準確率,而過濾軟件運行在用戶端,要處理的網(wǎng)頁存在不確定性,沒有相似網(wǎng)頁可供分析,因此不適宜采用此類技術(shù)。
[0012]不良文本信息和正常文本信息在視覺上也沒有明確的界限,不同網(wǎng)站的網(wǎng)頁結(jié)構(gòu)和節(jié)點深度差異很大,尤其是位于網(wǎng)頁右側(cè)、下側(cè)的不健康的廣告和色情信息的節(jié)點結(jié)構(gòu)和深度與主題差異很大,采用基于dom樹節(jié)點間相似度或基于視覺特征的分塊方法都存在無法準確確定語義模塊的位置一語義模塊一般由一個或者多個dom樹節(jié)點組成,而文本節(jié)點一般位于所在dom樹節(jié)點的最底層,要根據(jù)文本所在節(jié)點位置信息判斷整個語義模塊的節(jié)點集合,就相當(dāng)于要根據(jù)一個點的位置確定其所在長方體的位置和大小。如必須使用這兩種方法,則前者需要預(yù)設(shè)最大樹節(jié)點深度,后者需要設(shè)定F>DOC(Permitted degree ofcoherence)的值,等于需要對待分析的網(wǎng)頁特征有一定了解。因此將這兩種方法用在未知dom樹特征的網(wǎng)頁上就會有較大概率產(chǎn)生語義模塊劃分過大或過小的問題。有時這兩類算法會同時使用,但也無法解決這個問題。同時VISP類依賴視覺特征的算法需要解析css和下載外部css文件,時間復(fù)雜度較高,影響用戶體驗。
[0013]基于html標(biāo)簽語義的方法一般作為其他方法輔助方法使用,因為僅有html5中新增的〈article〉、〈aside〉標(biāo)簽可以明確標(biāo)識語義模塊,而截至目前大部分網(wǎng)頁并未使用這兩個標(biāo)簽。同樣的,此方法也不能確定語義模塊的大小粒度。
[0014]總之,將已 有的方法用于不良信息過濾面臨著無法自動確定語義模塊的分割到哪一層的問題。
【發(fā)明內(nèi)容】
[0015]發(fā)明目的:針對現(xiàn)有技術(shù)中存在的問題與不足,本發(fā)明提供一種劃分網(wǎng)頁語義模塊的方法,在劃分語義模塊時,估算所應(yīng)達到的最深節(jié)點,由該層節(jié)點自下而上,根據(jù)相似度計算逐層推算出語義模塊的頂層節(jié)點集合。
[0016]技術(shù)方案:一種劃分網(wǎng)頁語義模塊的方法,該方法工作原理基于這樣兩條規(guī)律:
[0017]規(guī)律一:每個網(wǎng)頁的內(nèi)容都是不同的,在語義上都是獨立的,而每個網(wǎng)頁對應(yīng)一個URL,因此,每個URL都代表一個獨立的語義單元。
[0018]規(guī)律二:網(wǎng)頁上的每個語義模塊都會包含一個或多個超鏈接。如果一個語義模塊是完整的(新聞、新聞評論、論壇主帖、論壇回帖),則一般會有包含作者信息的超鏈接;如果一個語義模塊不完整(廣告、其他論壇的推廣鏈接、相關(guān)新聞標(biāo)題、相關(guān)主題標(biāo)題),則必然會包含指向完整語義網(wǎng)頁的超鏈接。
[0019]基于以上規(guī)律,可以假定網(wǎng)頁上每個語義模塊單元都包含一條能在當(dāng)前網(wǎng)頁內(nèi)代表這個語義模塊的超鏈接,則每個語義模塊必包含具有如下兩個特征的節(jié)點:
[0020]1.包含至少一條有效的超鏈接的節(jié)點,記為Nu ;
[0021]2.敏感詞所在的節(jié)點,記為Nw ;或者敏感詞的上級節(jié)點,記為Nt ;
[0022]并且:
[0023]I) Nu和Nt相同或者為兄弟節(jié)點;
[0024]2)如Nt ! = Nu,則Nt不含有效的超鏈接;[0025]3)如Nt = = Nu,則Nu為dom樹根節(jié)點或者至少有一個兄弟節(jié)點也包含有效的超鏈接;
[0026]4)如Nt = = Nu,則Nu必須是所有滿足以上條件(1)_3))的節(jié)點中最深層的節(jié)點;確定Nt節(jié)點的位置,將Nt節(jié)點在dom樹所處的層次作為語義分割的最底層,由此層起自下而上的通過相似度和權(quán)重計算識別語義模塊。
[0027]進一步地,無效的超鏈接指左右兩側(cè)都是文本的<a>節(jié)點。有效的超鏈接為排除無效的超鏈接之外的各種超鏈接。以包含有效超鏈接的子節(jié)點數(shù)作為節(jié)點的權(quán)重值,通過計算權(quán)重來確定Nt的位置。
[0028]進一步地,通過結(jié)合相似度計算和節(jié)點語義特征確定語義模塊最大結(jié)合;語義模塊所包含的子樹可能多于一個,所有子樹的父節(jié)點是相同的,并且相鄰,記每個子樹的最高頂點的集合為Tc,在確定Nt后設(shè)Tc = {Nt},記不在Tc中的Nt的兄弟節(jié)點的集合為Td,按照以下步驟迭代地擴展Tc的成員:
[0029]I)如Tc中只有一個節(jié)點(即Nt),則計算其與相鄰節(jié)點(記為Ns)的相似度,相似度超過閾值則判定Tc為完整的語義模塊,停止擴展;相似度(Sim)計算公式如下:
[0030]
【權(quán)利要求】
1.一種劃分網(wǎng)頁語義模塊的方法,其特征在于: 假定網(wǎng)頁上每個語義模塊單元都包含一條能在當(dāng)前網(wǎng)頁內(nèi)代表這個語義模塊的超鏈接,則每個語義模塊必包含具有如下兩個特征的節(jié)點: a.包含至少一條有效的超鏈接的節(jié)點,記為Nu; b.敏感詞所在的節(jié)點,記為Nw;或者敏感詞的上級節(jié)點,記為Nt ; 并且: 1)Nu和Nt相同或者為兄弟節(jié)點; 2)如Nt! = Nu,則Nt不含有效的超鏈接; 3)如Nt= = Nu,則Nu為dom樹根節(jié)點或者至少有一個兄弟節(jié)點也包含有效的超鏈接; 4)如Nt== Nu,則Nu必須是所有滿足以上條件的節(jié)點中最深層的節(jié)點; 確定Nt節(jié)點的位置,將Nt節(jié)點在dom樹所處的層次作為語義分割的最底層,由此層起自下而上的通過相似度和權(quán)重計算識別語義模塊。
2.如權(quán)利要求1所述的劃分網(wǎng)頁語義模塊的方法,其特征在于:該方法基于如下兩條規(guī)律: 規(guī)律一:每個網(wǎng)頁的內(nèi)容都是不同的,在語義上都是獨立的,而每個網(wǎng)頁對應(yīng)一個URL,因此,每個URL都代表一個獨立的語義單元; 規(guī)律二:網(wǎng)頁上的每個語義模塊都會包含一個或多個超鏈接;如果一個語義模塊是完整的,則會有包含作者信息的超鏈接;如果一個語義模塊不完整,則必然會包含指向完整語義網(wǎng)頁的超鏈接。
3.如權(quán)利要求1或2所述的劃分網(wǎng)頁語義模塊的方法,其特征在于:無效的超鏈接指左右兩側(cè)都是文本的<a>節(jié)點;有效的超鏈接為排除無效的超鏈接之外的各種超鏈接。
4.如權(quán)利要求3所述的劃分網(wǎng)頁語義模塊的方法,其特征在于:以包含有效超鏈接的子節(jié)點數(shù)作為節(jié)點的權(quán)重值,通過計算權(quán)重來確定Nt的位置。
5.如權(quán)利要求1所述的劃分網(wǎng)頁語義模塊的方法,其特征在于:通過結(jié)合相似度計算和節(jié)點語義特征確定語義模塊最大結(jié)合; 語義模塊所包含的子樹可能多于一個,所有子樹的父節(jié)點是相同的,并且相鄰,記每個子樹的最高頂點的集合為Tc,在確定Nt后設(shè)Tc = {Nt},記不在Tc中的Nt的兄弟節(jié)點的集合為Td,按照以下步驟迭代地擴展Tc的成員: I).如Tc中只有一個節(jié)點(即Nt),則計算其與相鄰節(jié)點(記為Ns)的相似度,相似度超過閾值則判定Tc為完整的語義模塊,停止擴展;相似度(Sim)計算公式如下:
【文檔編號】G06F17/30GK103984770SQ201410243493
【公開日】2014年8月13日 申請日期:2014年6月3日 優(yōu)先權(quán)日:2014年6月3日
【發(fā)明者】袁運來 申請人:袁運來