欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)站社區(qū)獲取方法及裝置、電子設(shè)備、存儲介質(zhì)與流程

文檔序號:40545315發(fā)布日期:2025-01-03 11:04閱讀:11來源:國知局
網(wǎng)站社區(qū)獲取方法及裝置、電子設(shè)備、存儲介質(zhì)與流程

本申請涉及數(shù)據(jù)處理,具體涉及一種網(wǎng)站社區(qū)獲取方法、裝置、電子設(shè)備以及計算機可讀存儲介質(zhì)。


背景技術(shù):

1、網(wǎng)站社區(qū)是指具有相同屬性的網(wǎng)站集合。在現(xiàn)有的網(wǎng)站社區(qū)獲取方案中,主要從網(wǎng)頁的html(hyper?text?markup?language,超文本標(biāo)記語言)文件中提取出dom(documentobject?model,文檔對象模型)結(jié)構(gòu),通過dom結(jié)構(gòu)之間的相似度匹配來進行網(wǎng)站社區(qū)發(fā)現(xiàn)。這種方案具有簡單快捷的優(yōu)點,對于靜態(tài)網(wǎng)站非常有效,但是也非常容易受到對抗,例如很多網(wǎng)站是通過動態(tài)嵌入網(wǎng)站來實現(xiàn)最終的頁面顯示效果,html結(jié)構(gòu)非常簡單,這種對抗導(dǎo)致現(xiàn)有的網(wǎng)站社區(qū)獲取方案無法發(fā)揮作用。因此,如何提出一種不易產(chǎn)生對抗的網(wǎng)站社區(qū)獲取方案是本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問題。


技術(shù)實現(xiàn)思路

1、為了提出不易于產(chǎn)生對抗的網(wǎng)站社區(qū)獲取方案,本申請的實施例分別提供了一種網(wǎng)站社區(qū)獲取方法、一種網(wǎng)站社區(qū)獲取裝置、一種電子設(shè)備、一種計算機可讀存儲介質(zhì)以及一種計算機程序產(chǎn)品。

2、第一方面,本申請實施例提供了一種網(wǎng)站社區(qū)獲取方法,該方法包括:獲取在互聯(lián)網(wǎng)應(yīng)用中傳播的多個url(uniform?resource?locator,統(tǒng)一資源定位器);從各個url中提取相應(yīng)網(wǎng)站的目錄信息,并基于不同的目錄層級對所述目錄信息進行分級處理,得到各網(wǎng)站對應(yīng)的目錄元素集合,同一網(wǎng)站對應(yīng)至少一個url;將各個目錄元素映射為預(yù)設(shè)長度的二進制序列,基于各網(wǎng)站包含的目錄元素對應(yīng)的二進制序列生成各網(wǎng)站的指紋信息;對各網(wǎng)站的指紋信息進行層次聚類處理,得到至少一個網(wǎng)站社區(qū)。

3、第二方面,本申請實施例提供了一種網(wǎng)站社區(qū)獲取裝置,該裝置包括:url獲取模塊,配置為獲取在互聯(lián)網(wǎng)應(yīng)用中傳播的多個url;網(wǎng)站信息提取模塊,配置為從各個url中提取相應(yīng)網(wǎng)站的目錄信息,并基于不同的目錄層級對所述目錄信息進行分級處理,得到各網(wǎng)站對應(yīng)的目錄元素集合,同一網(wǎng)站對應(yīng)至少一個url;網(wǎng)站指紋生成模塊,配置為將各個目錄元素映射為預(yù)設(shè)長度的二進制序列,基于各網(wǎng)站包含的目錄元素對應(yīng)的二進制序列生成各網(wǎng)站的指紋信息;網(wǎng)站社區(qū)獲取模塊,配置為對各網(wǎng)站的指紋信息進行層次聚類處理,得到至少一個網(wǎng)站社區(qū)。

4、第三方面,本申請實施例提供了一種電子設(shè)備,包括:一個或多個處理器;存儲器,用于存儲一個或多個程序,當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行時,使得所述電子設(shè)備實現(xiàn)如前所述的網(wǎng)站社區(qū)獲取方法中的步驟。

5、第四方面,本申請實施例提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機可讀指令,當(dāng)所述計算機可讀指令被計算機的處理器執(zhí)行時,使計算機執(zhí)行如上所述的網(wǎng)站社區(qū)獲取方法中的步驟。

6、第五方面,本申請實施例提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的網(wǎng)站社區(qū)獲取方法中的步驟。

7、相比于現(xiàn)有技術(shù)通過dom結(jié)構(gòu)的相似度來進行網(wǎng)站社區(qū)獲取,本申請的實施例是基于網(wǎng)站的目錄元素的相似程度來實現(xiàn)網(wǎng)站社區(qū)獲取,由于網(wǎng)站在傳播過程中不易產(chǎn)生對抗,例如即使是通過動態(tài)嵌入網(wǎng)站來實現(xiàn)最終頁面顯示效果的網(wǎng)站,也需要基于自身目錄信息進行url傳播,由此使得采用本申請實施例的網(wǎng)站社區(qū)獲取方案能夠獲取更加精確的網(wǎng)站社區(qū)發(fā)現(xiàn)結(jié)果。另外,本申請的實施例是基于網(wǎng)站的指紋信息來進行相似度匹配,以獲得具有相同屬性的網(wǎng)站社區(qū),指紋信息實質(zhì)為預(yù)設(shè)長度的二進制序列,其包含了網(wǎng)站的目錄元素的信息,不同網(wǎng)站的指紋信息也不同,這也為本申請進行精確的網(wǎng)站社區(qū)獲取提供了較好的數(shù)據(jù)基礎(chǔ)。

8、應(yīng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本申請。



技術(shù)特征:

1.一種網(wǎng)站社區(qū)獲取方法,其特征在于,所述網(wǎng)站社區(qū)表征具有相同屬性的網(wǎng)站集合,所述方法包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從各個url中提取相應(yīng)網(wǎng)站的目錄信息,包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于不同的目錄層級對所述目錄信息進行分級處理,得到各網(wǎng)站對應(yīng)的目錄元素集合,包括:

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:

5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:

6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將各個目錄元素映射為預(yù)設(shè)長度的二進制序列,基于各網(wǎng)站包含的目錄元素對應(yīng)的二進制序列生成各網(wǎng)站的指紋信息,包括:

7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)各個目錄元素的統(tǒng)計頻次以及二進制序列構(gòu)建各目錄元素的向量,包括:

8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述將所述和向量轉(zhuǎn)換為二進制序列,以得到對應(yīng)網(wǎng)站的指紋信息,包括:

9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對各網(wǎng)站的指紋信息進行層次聚類處理,得到至少一個網(wǎng)站社區(qū),包括:

10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述方法還包括:

11.根據(jù)權(quán)利要求1-9任一項所述的方法,其特征在于,所述方法還包括:

12.一種網(wǎng)站社區(qū)獲取裝置,其特征在于,所述網(wǎng)站社區(qū)表征具有相同屬性的網(wǎng)站集合,所述裝置包括:

13.一種電子設(shè)備,其特征在于,包括:

14.一種計算機可讀存儲介質(zhì),其特征在于,其上存儲有計算機可讀指令,當(dāng)所述計算機可讀指令被計算機的處理器執(zhí)行時,使計算機執(zhí)行權(quán)利要求1至11中任一項所述的網(wǎng)站社區(qū)獲取方法。


技術(shù)總結(jié)
本申請的實施例揭示了網(wǎng)站社區(qū)獲取方法及裝置、電子設(shè)備、存儲介質(zhì)。該方法包括:獲取在互聯(lián)網(wǎng)應(yīng)用中傳播的多個URL;從各個URL中提取相應(yīng)網(wǎng)站的目錄信息,并基于不同的目錄層級對所述目錄信息進行分級處理,得到各網(wǎng)站對應(yīng)的目錄元素集合,同一網(wǎng)站對應(yīng)至少一個URL;將各個目錄元素映射為預(yù)設(shè)長度的二進制序列,基于各網(wǎng)站包含的目錄元素對應(yīng)的二進制序列生成各網(wǎng)站的指紋信息;對各網(wǎng)站的指紋信息進行層次聚類處理,得到至少一個網(wǎng)站社區(qū)。本申請能夠進行精確的網(wǎng)站社區(qū)獲取。

技術(shù)研發(fā)人員:牛亞峰,張凱,張旭,甘曉華
受保護的技術(shù)使用者:騰訊科技(深圳)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
双流县| 泽库县| 翁源县| 乌拉特后旗| 云和县| 玉山县| 衡阳市| 简阳市| 仙桃市| 古丈县| 海阳市| 台州市| 仪征市| 滕州市| 简阳市| 隆子县| 哈巴河县| 汉沽区| 巨野县| 寻乌县| 庆元县| 天水市| 南华县| 涟水县| 绥化市| 始兴县| 石渠县| 遂溪县| 江永县| 巨野县| 岢岚县| 永宁县| 宜昌市| 文昌市| 宁海县| 五原县| 海盐县| 阿克苏市| 清原| 泰宁县| 金乡县|