1.一種確定權(quán)威網(wǎng)頁(yè)的方式,其特征在于,包括:
獲取互聯(lián)網(wǎng)中的多個(gè)首頁(yè)的統(tǒng)一資源定位符;
對(duì)所述多個(gè)首頁(yè)的統(tǒng)一資源定位符進(jìn)行聚類處理;
基于聚類結(jié)果從所述多個(gè)首頁(yè)中確定權(quán)威網(wǎng)頁(yè)。
2.根據(jù)權(quán)利要求1所述的確定權(quán)威網(wǎng)頁(yè)的方式,其中,對(duì)所述多個(gè)首頁(yè)的統(tǒng)一資源定位符進(jìn)行聚類,具體包括:
提取各個(gè)首頁(yè)的統(tǒng)一資源定位符對(duì)應(yīng)的主域;
將對(duì)應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。
3.根據(jù)權(quán)利要求2所述的確定權(quán)威網(wǎng)頁(yè)的方式,其中,基于聚類結(jié)果從所述多個(gè)首頁(yè)中確定權(quán)威網(wǎng)頁(yè),具體包括:
若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值,則從多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁(yè)中選擇用戶關(guān)注度最高的首頁(yè)作為權(quán)威網(wǎng)頁(yè)。
4.根據(jù)權(quán)利要求3所述的確定權(quán)威網(wǎng)頁(yè)的方式,其中,所述用戶關(guān)注度通過(guò)以下至少任一項(xiàng)來(lái)確定:
首頁(yè)的平均訪問(wèn)量;
每次訪問(wèn)的平均瀏覽時(shí)長(zhǎng)。
5.根據(jù)權(quán)利要求2所述的確定權(quán)威網(wǎng)頁(yè)的方式,其中,基于聚類結(jié)果從所述多個(gè)首頁(yè)中確定權(quán)威網(wǎng)頁(yè),具體包括:
若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量大于第二預(yù)定閾值,則將該類中的多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁(yè)均確定為權(quán)威網(wǎng)頁(yè)。
6.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的確定權(quán)威網(wǎng)頁(yè)的方式,其中,所述權(quán)威網(wǎng)頁(yè)為官網(wǎng)網(wǎng)頁(yè)。
7.一種確定權(quán)威網(wǎng)頁(yè)的裝置,其特征在于,包括:
定位符獲取模塊,用于獲取互聯(lián)網(wǎng)中的多個(gè)首頁(yè)的統(tǒng)一資源定位符;
聚類處理模塊,用于對(duì)所述多個(gè)首頁(yè)的統(tǒng)一資源定位符進(jìn)行聚類處理;
權(quán)威網(wǎng)頁(yè)確定模塊,用于基于聚類結(jié)果從所述多個(gè)首頁(yè)中確定權(quán)威網(wǎng)頁(yè)。
8.根據(jù)權(quán)利要求7所述的確定權(quán)威網(wǎng)頁(yè)的裝置,其中,所述聚類處理模塊具體包括:
主域提取單元,用于提取各個(gè)首頁(yè)的統(tǒng)一資源定位符對(duì)應(yīng)的主域;
聚合單元,用于將對(duì)應(yīng)同一主域的統(tǒng)一資源定位符聚合為同一類。
9.根據(jù)權(quán)利要求8所述的確定權(quán)威網(wǎng)頁(yè)的裝置,其中,所述權(quán)威網(wǎng)頁(yè)確定模塊具體用于若屬于同一類的多個(gè)統(tǒng)一資源定位符的數(shù)量小于第一預(yù)定閾值,則從多個(gè)統(tǒng)一資源定位符對(duì)應(yīng)的多個(gè)首頁(yè)中選擇用戶關(guān)注度最高的首頁(yè)作為權(quán)威網(wǎng)頁(yè)。
10.根據(jù)權(quán)利要求9所述的確定權(quán)威網(wǎng)頁(yè)的裝置,其中,所述用戶關(guān)注度通過(guò)以下至少任一項(xiàng)來(lái)確定:
首頁(yè)的平均訪問(wèn)量;
每次訪問(wèn)的平均瀏覽時(shí)長(zhǎng)。