一種網(wǎng)頁數(shù)據(jù)的分類方法、裝置和系統(tǒng)的制作方法
【專利摘要】本發(fā)明實施例公開了一種網(wǎng)頁數(shù)據(jù)的分類方法和裝置。本發(fā)明實施例采用獲取分類樹,針對該分類樹中每個類別在原始網(wǎng)頁數(shù)據(jù)集合選擇至少一個網(wǎng)頁數(shù)據(jù),作為每個類別對應(yīng)的聚類初始中心點,然后根據(jù)該少量的聚類初始中心點對原始網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù)進行聚類,來生成大量的訓練樣本,最后根據(jù)這些訓練樣本生成分類樹模型。由于該方案在生成分類樹模型的過程中只需標注少量的種子數(shù)據(jù)(即聚類初始中心點),即可得到大量的訓練樣本,因此相對于現(xiàn)有技術(shù)中需要依賴大量標注數(shù)據(jù)而言,可以大大提高分類的效率,降低代價,而且可以快速靈活地支持新增的分類。
【專利說明】一種網(wǎng)頁數(shù)據(jù)的分類方法、裝置和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信【技術(shù)領(lǐng)域】,具體涉及一種網(wǎng)頁數(shù)據(jù)的分類方法、裝置和系統(tǒng)。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)的快速發(fā)展給人們的生活帶來了極大的便利,但是網(wǎng)頁數(shù)量的高速增長,以及用戶原創(chuàng)內(nèi)容(UGC,User Generated Content)的快速增長也帶來了信息過載的問題,如何將這些網(wǎng)頁數(shù)據(jù)有效地分門別類,以方便用戶瀏覽,顯得尤其重要。
[0003]以網(wǎng)頁為例,通??梢愿鶕?jù)網(wǎng)頁的內(nèi)容將網(wǎng)頁分為科技、體育和娛樂等許多類別,而其中,體育又可以包括籃球和足球等類別,進一步的,籃球還可以分為NBA和CBA等類別,以此類推,因此,一個網(wǎng)頁通常對應(yīng)了多級類別,不同級對應(yīng)不同的分類粒度,其中,分類粒度反映分類信息的詳細程度。一般的,可以采用分類樹來描述這一分類特點,所謂分裂樹,指的是一種多級分類結(jié)構(gòu),每個結(jié)點代表一個類別,子結(jié)點則代表其子類別。現(xiàn)有技術(shù)主要是采用傳統(tǒng)的分類方法,比如樸素貝葉斯、支撐向量機等來對分類樹每一級的所有類別進行數(shù)據(jù)標注和模型生成。
[0004]在對現(xiàn)有技術(shù)的研究和實踐過程中,本發(fā)明的發(fā)明人發(fā)現(xiàn),當分類樹過于龐大時,若采用現(xiàn)有技術(shù)的方案,則需要標注的訓練樣本數(shù)量將增長得非???,而標注通常需要人工完成以保證網(wǎng)頁數(shù)據(jù)的正確性,因此效率低下,代價巨大,而且對于新增分類的支持也不夠敏捷。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實施例提供一種網(wǎng)頁數(shù)據(jù)的分類方法、裝置和系統(tǒng),可以提高分類效率,降低代價,而且可以快速靈活地支持新增的分類。
[0006]一種網(wǎng)頁數(shù)據(jù)的分類方法,包括:
[0007]獲取分類樹,針對所述分類樹中每個類別在原始網(wǎng)頁數(shù)據(jù)集合選擇至少一個網(wǎng)頁數(shù)據(jù),作為每個類別對應(yīng)的聚類初始中心點;
[0008]根據(jù)所述聚類初始中心點對所述原始網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù)進行聚類,得到訓練樣本集;
[0009]根據(jù)所述訓練樣本集生成分類樹模型。
[0010]例如,其中,根據(jù)所述聚類初始中心點對所述原始網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù)進行聚類,得到訓練樣本集,可以包括:
[0011]計算每個類別對應(yīng)的聚類初始中心點的均值,得到每個類別對應(yīng)的第一聚類中心
占.[0012]計算原始網(wǎng)頁數(shù)據(jù)集合中每個網(wǎng)頁數(shù)據(jù)到每個第一聚類中心點的距離,并將所述網(wǎng)頁數(shù)據(jù)劃分到與其距離最近的第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中;
[0013]在所述第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中選擇與第一聚類中心點距離小于等于預(yù)置閾值的網(wǎng)頁數(shù)據(jù),得到第一網(wǎng)頁數(shù)據(jù)集合;[0014]對所述第一網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù)進行距離加權(quán)運算,以生成第二聚類中心
占.[0015]確定第二聚類中心點是否等于第一聚類中心點;
[0016]若否,則將第二聚類中心點作為第一聚類中心點,并返回執(zhí)行計算原始網(wǎng)頁數(shù)據(jù)集合中每個網(wǎng)頁數(shù)據(jù)到每個第一聚類中心點的距離,并將所述網(wǎng)頁數(shù)據(jù)劃分到與其距離最近的第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中的步驟;
[0017]若是,則將第一網(wǎng)頁數(shù)據(jù)集合作為訓練樣本集。
[0018]可選的,所述根據(jù)所述聚類初始中心點對所述原始網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù)進行聚類,得到訓練樣本集之后,還可以包括:
[0019]對所述訓練樣本集進行篩選,得到篩選后的訓練樣本集;
[0020]則此時,所述根據(jù)所述訓練樣本集生成分類樹模型具體可以為:根據(jù)篩選后的訓練樣本集生成分類樹模型。
[0021]相應(yīng)的,本發(fā)明實施例還提供一種網(wǎng)頁數(shù)據(jù)分類裝置,包括初始種子選擇單元、聚類單元和模型生成單元;
[0022]初始種子選擇單元,用于獲取分類樹,針對所述分類樹中每個類別在原始網(wǎng)頁數(shù)據(jù)集合選擇至少一個網(wǎng)頁數(shù)據(jù),作為每個類別對應(yīng)的聚類初始中心點;
[0023]聚類單元,用于根據(jù)所述聚類初始中心點對所述原始網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù)進行聚類,得到訓練樣本集;
[0024]模型生成單元,用于根據(jù)所述訓練樣本集生成分類樹模型。
[0025]例如,其中,所述聚類單元可以包括計算子單元、劃分子單元、選擇子單元、生成子單元和處理子單元;
[0026]計算子單元,用于計算每個類別對應(yīng)的聚類初始中心點的均值,得到每個類別對應(yīng)的第一聚類中心點;
[0027]劃分子單元,用于計算原始網(wǎng)頁數(shù)據(jù)集合中每個網(wǎng)頁數(shù)據(jù)到每個第一聚類中心點的距離,并將所述網(wǎng)頁數(shù)據(jù)劃分到與其距離最近的第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中;
[0028]選擇子單元,用于在所述第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中選擇與第一聚類中心點距離小于等于預(yù)置閾值的網(wǎng)頁數(shù)據(jù),得到第一網(wǎng)頁數(shù)據(jù)集合;
[0029]生成子單元,用于對所述第一網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù)進行距離加權(quán)運算,以生成第二聚類中心點;
[0030]處理子單元,用于確定第二聚類中心點是否等于第一聚類中心點;若否,則將第二聚類中心點作為第一聚類中心點,并觸發(fā)劃分子單元執(zhí)行計算原始網(wǎng)頁數(shù)據(jù)集合中每個網(wǎng)頁數(shù)據(jù)到每個第一聚類中心點的距離,并將所述網(wǎng)頁數(shù)據(jù)劃分到與其距離最近的第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中的步驟;若是,則將第一網(wǎng)頁數(shù)據(jù)集合作為訓練樣本集。
[0031]可選的,所述網(wǎng)頁數(shù)據(jù)分類裝置還可以包括篩選單元;
[0032]篩選單元,用于對所述訓練樣本集進行篩選,得到篩選后的訓練樣本集;
[0033]則此時,所述模型生成單元,具體可以用于根據(jù)篩選后的訓練樣本集生成分類樹模型。
[0034]相應(yīng)的,本發(fā)明實施例還提供一種通信系統(tǒng),包括本發(fā)明實施例提供的任一種網(wǎng)頁數(shù)據(jù)分類裝置。[0035]本發(fā)明實施例采用獲取分類樹,針對該分類樹中每個類別在原始網(wǎng)頁數(shù)據(jù)集合選擇至少一個網(wǎng)頁數(shù)據(jù),作為每個類別對應(yīng)的聚類初始中心點,然后根據(jù)該少量的聚類初始中心點對原始網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù)進行聚類,來生成大量的訓練樣本,最后根據(jù)這些訓練樣本生成分類樹模型。由于該方案在生成分類樹模型的過程中只需標注少量的種子數(shù)據(jù)(即聚類初始中心點),即可得到大量的訓練樣本,因此相對于現(xiàn)有技術(shù)中需要依賴大量標注數(shù)據(jù)而言,可以大大提高分類的效率,降低代價,而且可以快速靈活地支持新增的分類。
【專利附圖】
【附圖說明】
[0036]為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0037]圖1是本發(fā)明實施例提供的一種網(wǎng)頁數(shù)據(jù)的分類方法的流程圖;
[0038]圖2是本發(fā)明實施例提供的一種網(wǎng)頁數(shù)據(jù)的分類方法的另一流程圖;
[0039]圖3a是本發(fā)明實施例提供的一種網(wǎng)頁數(shù)據(jù)的分類方法的又一流程圖;
[0040]圖3b是一個簡化的網(wǎng)頁分類樹的示意圖;
[0041]圖4是本發(fā)明實施例提供的網(wǎng)頁數(shù)據(jù)分類裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0042]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0043]本發(fā)明實施例提供一種網(wǎng)頁數(shù)據(jù)的分類方法、裝置和系統(tǒng)。以下分別進行詳細說明。
[0044]實施例一、
[0045]本發(fā)明實施例將從網(wǎng)頁數(shù)據(jù)分類裝置的角度進行描述,該網(wǎng)頁數(shù)據(jù)分類裝置具體可以為終端,比如手機、平板電腦或家庭計算機(PC, Personal Computer)等。
[0046]—種網(wǎng)頁數(shù)據(jù)的分類方法,包括:獲取分類樹,針對該分類樹中每個類別在原始網(wǎng)頁數(shù)據(jù)集合選擇至少一個網(wǎng)頁數(shù)據(jù),作為每個類別對應(yīng)的聚類初始中心點,根據(jù)該聚類初始中心點對原始網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù)進行聚類,得到訓練樣本集,根據(jù)得到的訓練樣本集生成分類樹模型。
[0047]如圖1所示,具體流程如下:
[0048]101、獲取分類樹,針對該分類樹中每個類別在原始網(wǎng)頁數(shù)據(jù)集合選擇η個網(wǎng)頁數(shù)據(jù),作為每個類別對應(yīng)的聚類初始中心點,其中,聚類初始中心點也稱為初始種子;
[0049]其中,η至少為一個,η的取值可以根據(jù)實際應(yīng)用的需求進行設(shè)置,比如,可以為設(shè)置為f 5個,即具體可以針對分類樹中每個類別在原始網(wǎng)頁數(shù)據(jù)集合選擇I至5個網(wǎng)頁數(shù)據(jù),作為每個類別對應(yīng)的聚類初始中心點。[0050]102、根據(jù)聚類初始中心點對原始網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù)進行聚類,得到訓練樣本集;
[0051]其中,聚類指的是將對象劃分為多個組的過程,其中,每個組里的對象彼此相似,而每個組間的對象則彼此相異。
[0052]例如,具體可以如下:
[0053](I)計算每個類別對應(yīng)的聚類初始中心點的均值,得到每個類別對應(yīng)的聚類中心點(中心點也可稱為種子),為了描述方便,在本發(fā)明實施例中,將該聚類中心點稱為第一聚類中心點。
[0054]比如,如果在步驟101中,針對分類樹中某個類別A在原始網(wǎng)頁數(shù)據(jù)集合中選擇了兩個網(wǎng)頁數(shù)據(jù),來作為該類別A對應(yīng)的聚類初始中心點,即類別A對應(yīng)兩個聚類初始中心點,則此時,類別A的第一聚類中心點為這兩個聚類初始中心點的均值。
[0055]又比如,如果在步驟101中,針對分類樹中某個類別A在原始網(wǎng)頁數(shù)據(jù)集合中選擇了 5個網(wǎng)頁數(shù)據(jù),來作為該類別A對應(yīng)的聚類初始中心點,即類別A對應(yīng)5個聚類初始中心點,則此時,類別A的第一聚類中心點為這5個聚類初始中心點的均值,以此類推,等等。
[0056](2)計算原始網(wǎng)頁數(shù)據(jù)集合中每個網(wǎng)頁數(shù)據(jù)到每個第一聚類中心點的距離Di,并將該網(wǎng)頁數(shù)據(jù)劃分到與其距離Di最近的第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中。
[0057]比如,如果原始網(wǎng)頁數(shù)據(jù)集合為{dl,d2,d3,d4,d5},dl與類別A的第一聚類中心點的距離為Dla,dl與類別B的第一聚類中心點的距離為Dlb,dl與類別B的第一聚類中心點的距離為Dlb ;d2與類別A的第一聚類中心點的距離為D2a,dl與類別B的第一聚類中心點的距離為D2b ;d3與類別A的第一聚類中心點的距離為D3a,dl與類別B的第一聚類中心點的距離為D3b ;d4與類別A的第一聚類中心點的距離為D4a,dl與類別B的第一聚類中心點的距離為D4b ;d5與類別A的第一聚類中心點的距離為D5a,dl與類別B的第一聚類中心點的距離為D5b ;則,如果Dla>Dlb,那么,可以將網(wǎng)頁數(shù)據(jù)dl劃分到類別A的網(wǎng)頁數(shù)據(jù)集合中,反之,如果Dla〈Dlb,那么,可以將網(wǎng)頁數(shù)據(jù)dl劃分到類別B的網(wǎng)頁數(shù)據(jù)集合中;同理,如果D2a>D2b,那么,可以將網(wǎng)頁數(shù)據(jù)d2也劃分到類別A的網(wǎng)頁數(shù)據(jù)集合中,如果D2a〈D2b,那么,可以將網(wǎng)頁數(shù)據(jù)d2也劃分到類別B的網(wǎng)頁數(shù)據(jù)集合中,以此類推。也就是說,如果“Dla>Dlb,D2a>D2b,D3a〈D3b,D4a>D4b, D5a〈D5b”,則類別A的網(wǎng)頁數(shù)據(jù)集合為{dl, d2,d4},類別B的網(wǎng)頁數(shù)據(jù)集合為{d3,d5},在此不再贅述。
[0058](3)在第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中選擇與第一聚類中心點距離Di小于等于預(yù)置閾值的網(wǎng)頁數(shù)據(jù),得到第一網(wǎng)頁數(shù)據(jù)集合。
[0059]其中,具體可以在第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中直接選擇距離Di小于等于預(yù)置閾值的網(wǎng)頁數(shù)據(jù),也可以對第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù)先進行排序,然后再進行選擇,如下:
[0060]例如,具體可以對第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù),按照與第一聚類中心點距離的大小從小到大進行排序,然后根據(jù)該排序舍棄距離大于預(yù)置閾值的網(wǎng)頁數(shù)據(jù),得到第一網(wǎng)頁數(shù)據(jù)集合。
[0061]其中,預(yù)置閾值可以根據(jù)實際應(yīng)用的需求進行設(shè)置。
[0062]比如,以類別A的網(wǎng)頁數(shù)據(jù)集合為{dl,d2,d4}為例,如果按照與類別A的第一聚類中心點距離的大小從小到大進行排序為:“dl,d4,d2”,其中,網(wǎng)頁數(shù)據(jù)d2與類別A的第一聚類中心點的距離大于預(yù)置閾值,則此時可以將網(wǎng)頁數(shù)據(jù)d2舍棄,得到類別A的第一網(wǎng)頁數(shù)據(jù)集合{dl, d4}。
[0063]又比如,以類別A的網(wǎng)頁數(shù)據(jù)集合為{dl,d2,d4,d6,d7}為例,如果按照與類別A的第一聚類中心點距離的大小從小到大進行排序為:“dl,d4,d2,d6,d7”,其中,網(wǎng)頁數(shù)據(jù)d2與類別A的第一聚類中心點的距離大于預(yù)置閾值,則此時可以將網(wǎng)頁數(shù)據(jù)d2、d6和d7舍棄(因為“d6與第一聚類中心點的距離”,以及“d7與第一聚類中心點的距離”均大于“d2與第一聚類中心點的距離”,所以,當d2與類別A的第一聚類中心點的距離大于預(yù)置閾值時,“d6與第一聚類中心點的距離”和“d7與第一聚類中心點的距離”自然也大于預(yù)置閾值,所以此時可以無需對d6和d7進行判斷,而是直接舍棄),得到類別A的第一網(wǎng)頁數(shù)據(jù)集合{dl, d4}。
[0064](4)對第一網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù)進行距離加權(quán)運算,以生成新的聚類中心點,為了描述方便,在本發(fā)明實施例中,將該新的聚類中心點稱為第二聚類中心點;
[0065]其中,在進行距離加權(quán)運算時,可以采用如下距離加權(quán)公式:
【權(quán)利要求】
1.一種網(wǎng)頁數(shù)據(jù)的分類方法,其特征在于,包括: 獲取分類樹,針對所述分類樹中每個類別在原始網(wǎng)頁數(shù)據(jù)集合選擇至少一個網(wǎng)頁數(shù)據(jù),作為每個類別對應(yīng)的聚類初始中心點; 根據(jù)所述聚類初始中心點對所述原始網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù)進行聚類,得到訓練樣本集; 根據(jù)所述訓練樣本集生成分類樹模型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述聚類初始中心點對所述原始網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù)進行聚類,得到訓練樣本集,包括: 計算每個類別對應(yīng)的聚類初始中心點的均值,得到每個類別對應(yīng)的第一聚類中心點; 計算原始網(wǎng)頁數(shù)據(jù)集合中每個網(wǎng)頁數(shù)據(jù)到每個第一聚類中心點的距離,并將所述網(wǎng)頁數(shù)據(jù)劃分到與其距離最近的第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中; 在所述第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中選擇與第一聚類中心點距離小于等于預(yù)置閾值的網(wǎng)頁數(shù)據(jù),得到第一網(wǎng)頁數(shù)據(jù)集合; 對所述第一網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù)進行距離加權(quán)運算,以生成第二聚類中心點; 確定第二聚類中心點是否等于第一聚類中心點; 若否,則將第二聚類中心點作為第一聚類中心點,并返回執(zhí)行計算原始網(wǎng)頁數(shù)據(jù)集合中每個網(wǎng)頁數(shù)據(jù)到每個第一聚類中心點的距離,并將所述網(wǎng)頁數(shù)據(jù)劃分到與其距離最近的第一聚類中心點的網(wǎng) 頁數(shù)據(jù)集合中的步驟; 若是,則將第一網(wǎng)頁數(shù)據(jù)集合作為訓練樣本集。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述在所述第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中選擇與第一聚類中心點距離小于等于預(yù)置閾值的網(wǎng)頁數(shù)據(jù),得到第一網(wǎng)頁數(shù)據(jù)集合,包括: 對所述第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù),按照與第一聚類中心點距離的大小從小到大進行排序,根據(jù)所述排序舍棄所述距離大于預(yù)置閾值的網(wǎng)頁數(shù)據(jù),得到第一網(wǎng)頁數(shù)據(jù)集合。
4.根據(jù)權(quán)利要求1至3任一項所述的方法,其特征在于,所述根據(jù)所述聚類初始中心點對所述原始網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù)進行聚類,得到訓練樣本集之后,還包括: 對所述訓練樣本集進行篩選,得到篩選后的訓練樣本集; 則所述根據(jù)所述訓練樣本集生成分類樹模型具體為:根據(jù)篩選后的訓練樣本集生成分類樹模型。
5.根據(jù)權(quán)利要求1至3任一項所述的方法,其特征在于,所述根據(jù)所述訓練樣本集生成分類樹模型,包括: 根據(jù)所述訓練樣本集,采用分類算法生成分類樹模型。
6.根據(jù)權(quán)利要求1至3任一項所述的方法,其特征在于,所述針對所述分類樹中每個類別在原始網(wǎng)頁數(shù)據(jù)集合選擇至少一個網(wǎng)頁數(shù)據(jù),作為每個類別對應(yīng)的聚類初始中心點,包括: 針對所述分類樹中每個類別在原始網(wǎng)頁數(shù)據(jù)集合選擇I至5個網(wǎng)頁數(shù)據(jù),作為每個類別對應(yīng)的聚類初始中心點。
7.—種網(wǎng)頁數(shù)據(jù)分類裝置,其特征在于,包括:初始種子選擇單元,用于獲取分類樹,針對所述分類樹中每個類別在原始網(wǎng)頁數(shù)據(jù)集合選擇至少一個網(wǎng)頁數(shù)據(jù),作為每個類別對應(yīng)的聚類初始中心點; 聚類單元,用于根據(jù)所述聚類初始中心點對所述原始網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù)進行聚類,得到訓練樣本集; 模型生成單元,用于根據(jù)所述訓練樣本集生成分類樹模型。
8.根據(jù)權(quán)利要求7所述的網(wǎng)頁數(shù)據(jù)分類裝置,其特征在于,所述聚類單元包括: 計算子單元,用于計算每個類別對應(yīng)的聚類初始中心點的均值,得到每個類別對應(yīng)的第一聚類中心點; 劃分子單元,用于計算原始網(wǎng)頁數(shù)據(jù)集合中每個網(wǎng)頁數(shù)據(jù)到每個第一聚類中心點的距離,并將所述網(wǎng)頁數(shù)據(jù)劃分到與其距離最近的第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中; 選擇子單元,用于在所述第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中選擇與第一聚類中心點距離小于等于預(yù)置閾值的網(wǎng)頁數(shù)據(jù),得到第一網(wǎng)頁數(shù)據(jù)集合; 生成子單元,用于對所述第一網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù)進行距離加權(quán)運算,以生成第二聚類中心點; 處理子單元,用于確定第二聚類中心點是否等于第一聚類中心點;若否,則將第二聚類中心點作為第一聚類中心點,并觸發(fā)劃分子單元執(zhí)行計算原始網(wǎng)頁數(shù)據(jù)集合中每個網(wǎng)頁數(shù)據(jù)到每個第一聚類中心點的距離,并將所述網(wǎng)頁數(shù)據(jù)劃分到與其距離最近的第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中的步驟;若是,則將第一網(wǎng)頁數(shù)據(jù)集合作為訓練樣本集。
9.根據(jù)權(quán)利要求8所述的網(wǎng)頁數(shù)據(jù)分類裝置,其特征在于, 所述選擇子單元,具體用于對所述第一聚類中心點的網(wǎng)頁數(shù)據(jù)集合中的網(wǎng)頁數(shù)據(jù),按照與第一聚類中心點距離的大小從小 到大進行排序,根據(jù)所述排序舍棄所述距離大于預(yù)置閾值的網(wǎng)頁數(shù)據(jù),得到第一網(wǎng)頁數(shù)據(jù)集合。
10.根據(jù)權(quán)利要求7至9任一項所述的網(wǎng)頁數(shù)據(jù)分類裝置,其特征在于,還包括篩選單元; 篩選單元,用于對所述訓練樣本集進行篩選,得到篩選后的訓練樣本集; 則所述模型生成單元,具體用于根據(jù)篩選后的訓練樣本集生成分類樹模型。
11.根據(jù)權(quán)利要求7至9任一項所述的網(wǎng)頁數(shù)據(jù)分類裝置,其特征在于, 所述模型生成單元,具體用于根據(jù)所述訓練樣本集,采用分類算法生成分類樹模型。
12.根據(jù)權(quán)利要求7至9任一項所述的網(wǎng)頁數(shù)據(jù)分類裝置,其特征在于, 所述初始種子選擇單元,具體用于針對所述分類樹中每個類別在原始網(wǎng)頁數(shù)據(jù)集合選擇I至5個網(wǎng)頁數(shù)據(jù),作為每個類別對應(yīng)的聚類初始中心點。
13.—種通信系統(tǒng),其特征在于,包括權(quán)利要求7至12所述的任一種網(wǎng)頁數(shù)據(jù)分類裝置。
【文檔編號】G06F17/30GK103885977SQ201210562402
【公開日】2014年6月25日 申請日期:2012年12月21日 優(yōu)先權(quán)日:2012年12月21日
【發(fā)明者】蔡兵 申請人:騰訊科技(深圳)有限公司