本申請涉及數(shù)據(jù)處理,具體涉及一種網(wǎng)站社區(qū)獲取方法、裝置、電子設(shè)備以及計算機可讀存儲介質(zhì)。
背景技術(shù):
1、網(wǎng)站社區(qū)是指具有相同屬性的網(wǎng)站集合。在現(xiàn)有的網(wǎng)站社區(qū)獲取方案中,主要從網(wǎng)頁的html(hyper?text?markup?language,超文本標(biāo)記語言)文件中提取出dom(documentobject?model,文檔對象模型)結(jié)構(gòu),通過dom結(jié)構(gòu)之間的相似度匹配來進行網(wǎng)站社區(qū)發(fā)現(xiàn)。這種方案具有簡單快捷的優(yōu)點,對于靜態(tài)網(wǎng)站非常有效,但是也非常容易受到對抗,例如很多網(wǎng)站是通過動態(tài)嵌入網(wǎng)站來實現(xiàn)最終的頁面顯示效果,html結(jié)構(gòu)非常簡單,這種對抗導(dǎo)致現(xiàn)有的網(wǎng)站社區(qū)獲取方案無法發(fā)揮作用。因此,如何提出一種不易產(chǎn)生對抗的網(wǎng)站社區(qū)獲取方案是本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、為了提出不易于產(chǎn)生對抗的網(wǎng)站社區(qū)獲取方案,本申請的實施例分別提供了一種網(wǎng)站社區(qū)獲取方法、一種網(wǎng)站社區(qū)獲取裝置、一種電子設(shè)備、一種計算機可讀存儲介質(zhì)以及一種計算機程序產(chǎn)品。
2、第一方面,本申請實施例提供了一種網(wǎng)站社區(qū)獲取方法,該方法包括:獲取在互聯(lián)網(wǎng)應(yīng)用中傳播的多個url(uniform?resource?locator,統(tǒng)一資源定位器);從各個url中提取相應(yīng)網(wǎng)站的目錄信息,并基于不同的目錄層級對所述目錄信息進行分級處理,得到各網(wǎng)站對應(yīng)的目錄元素集合,同一網(wǎng)站對應(yīng)至少一個url;將各個目錄元素映射為預(yù)設(shè)長度的二進制序列,基于各網(wǎng)站包含的目錄元素對應(yīng)的二進制序列生成各網(wǎng)站的指紋信息;對各網(wǎng)站的指紋信息進行層次聚類處理,得到至少一個網(wǎng)站社區(qū)。
3、第二方面,本申請實施例提供了一種網(wǎng)站社區(qū)獲取裝置,該裝置包括:url獲取模塊,配置為獲取在互聯(lián)網(wǎng)應(yīng)用中傳播的多個url;網(wǎng)站信息提取模塊,配置為從各個url中提取相應(yīng)網(wǎng)站的目錄信息,并基于不同的目錄層級對所述目錄信息進行分級處理,得到各網(wǎng)站對應(yīng)的目錄元素集合,同一網(wǎng)站對應(yīng)至少一個url;網(wǎng)站指紋生成模塊,配置為將各個目錄元素映射為預(yù)設(shè)長度的二進制序列,基于各網(wǎng)站包含的目錄元素對應(yīng)的二進制序列生成各網(wǎng)站的指紋信息;網(wǎng)站社區(qū)獲取模塊,配置為對各網(wǎng)站的指紋信息進行層次聚類處理,得到至少一個網(wǎng)站社區(qū)。
4、第三方面,本申請實施例提供了一種電子設(shè)備,包括:一個或多個處理器;存儲器,用于存儲一個或多個程序,當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行時,使得所述電子設(shè)備實現(xiàn)如前所述的網(wǎng)站社區(qū)獲取方法中的步驟。
5、第四方面,本申請實施例提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機可讀指令,當(dāng)所述計算機可讀指令被計算機的處理器執(zhí)行時,使計算機執(zhí)行如上所述的網(wǎng)站社區(qū)獲取方法中的步驟。
6、第五方面,本申請實施例提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的網(wǎng)站社區(qū)獲取方法中的步驟。
7、相比于現(xiàn)有技術(shù)通過dom結(jié)構(gòu)的相似度來進行網(wǎng)站社區(qū)獲取,本申請的實施例是基于網(wǎng)站的目錄元素的相似程度來實現(xiàn)網(wǎng)站社區(qū)獲取,由于網(wǎng)站在傳播過程中不易產(chǎn)生對抗,例如即使是通過動態(tài)嵌入網(wǎng)站來實現(xiàn)最終頁面顯示效果的網(wǎng)站,也需要基于自身目錄信息進行url傳播,由此使得采用本申請實施例的網(wǎng)站社區(qū)獲取方案能夠獲取更加精確的網(wǎng)站社區(qū)發(fā)現(xiàn)結(jié)果。另外,本申請的實施例是基于網(wǎng)站的指紋信息來進行相似度匹配,以獲得具有相同屬性的網(wǎng)站社區(qū),指紋信息實質(zhì)為預(yù)設(shè)長度的二進制序列,其包含了網(wǎng)站的目錄元素的信息,不同網(wǎng)站的指紋信息也不同,這也為本申請進行精確的網(wǎng)站社區(qū)獲取提供了較好的數(shù)據(jù)基礎(chǔ)。
8、應(yīng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本申請。
1.一種網(wǎng)站社區(qū)獲取方法,其特征在于,所述網(wǎng)站社區(qū)表征具有相同屬性的網(wǎng)站集合,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從各個url中提取相應(yīng)網(wǎng)站的目錄信息,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于不同的目錄層級對所述目錄信息進行分級處理,得到各網(wǎng)站對應(yīng)的目錄元素集合,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將各個目錄元素映射為預(yù)設(shè)長度的二進制序列,基于各網(wǎng)站包含的目錄元素對應(yīng)的二進制序列生成各網(wǎng)站的指紋信息,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)各個目錄元素的統(tǒng)計頻次以及二進制序列構(gòu)建各目錄元素的向量,包括:
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述將所述和向量轉(zhuǎn)換為二進制序列,以得到對應(yīng)網(wǎng)站的指紋信息,包括:
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對各網(wǎng)站的指紋信息進行層次聚類處理,得到至少一個網(wǎng)站社區(qū),包括:
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述方法還包括:
11.根據(jù)權(quán)利要求1-9任一項所述的方法,其特征在于,所述方法還包括:
12.一種網(wǎng)站社區(qū)獲取裝置,其特征在于,所述網(wǎng)站社區(qū)表征具有相同屬性的網(wǎng)站集合,所述裝置包括:
13.一種電子設(shè)備,其特征在于,包括:
14.一種計算機可讀存儲介質(zhì),其特征在于,其上存儲有計算機可讀指令,當(dāng)所述計算機可讀指令被計算機的處理器執(zhí)行時,使計算機執(zhí)行權(quán)利要求1至11中任一項所述的網(wǎng)站社區(qū)獲取方法。