1.一種網(wǎng)站轉(zhuǎn)載數(shù)量的統(tǒng)計方法,其特征在于,包括:
利用爬蟲爬取原創(chuàng)文章的轉(zhuǎn)載體,得到所述原創(chuàng)文章的第一網(wǎng)站轉(zhuǎn)載結(jié)果,其中,所述原創(chuàng)文章為在目標(biāo)網(wǎng)站上首發(fā)的文章;
獲取所述原創(chuàng)文章的屬性信息,其中,所述屬性信息包括標(biāo)題信息和/或關(guān)鍵詞信息;
根據(jù)獲取的所述屬性信息利用搜索引擎搜索所述原創(chuàng)文章的轉(zhuǎn)載體,得到所述原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果;
合并所述原創(chuàng)文章的所述第一網(wǎng)站轉(zhuǎn)載結(jié)果及所述第二網(wǎng)站轉(zhuǎn)載結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,合并所述原創(chuàng)文章的所述第一網(wǎng)站轉(zhuǎn)載結(jié)果及所述第二網(wǎng)站轉(zhuǎn)載結(jié)果包括:
刪除所述原創(chuàng)文章的所述第二網(wǎng)站轉(zhuǎn)載結(jié)果中與所述第一網(wǎng)站轉(zhuǎn)載結(jié)果中的重復(fù)部分;
將刪除了所述重復(fù)部分的第二網(wǎng)站轉(zhuǎn)載結(jié)果疊加到所述第一網(wǎng)站轉(zhuǎn)載結(jié)果中。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)獲取的所述屬性信息利用搜索引擎搜索所述原創(chuàng)文章的轉(zhuǎn)載體,得到所述原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果包括:
根據(jù)獲取的所述屬性信息利用搜索引擎搜索所述原創(chuàng)文章的轉(zhuǎn)載體;
對所述原創(chuàng)文章與其轉(zhuǎn)載體進行相似度分析;
根據(jù)相似度分析結(jié)果確定所述原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)相似度分析結(jié)果確定所述原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果包括:
根據(jù)所述相似度分析結(jié)果確定出與所述原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體;
判斷與所述原創(chuàng)文章的相似度大于所述相似度閾值的轉(zhuǎn)載體的發(fā)布時間是否晚于所述原創(chuàng)文章的首發(fā)時間;
在判斷結(jié)果為與所述原創(chuàng)文章的相似度大于所述相似度閾值的轉(zhuǎn)載體的發(fā)布時間晚于所述原創(chuàng)文章的首發(fā)時間的情況下,確定該轉(zhuǎn)載體屬于所述原創(chuàng)文章的 第二網(wǎng)站轉(zhuǎn)載結(jié)果。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在判斷與所述原創(chuàng)文章的相似度大于所述相似度閾值的轉(zhuǎn)載體的發(fā)布時間是否晚于所述原創(chuàng)文章的首發(fā)時間之前,所述方法還包括:
檢測與所述原創(chuàng)文章的相似度大于所述相似度閾值的轉(zhuǎn)載體是否有文章來源標(biāo)識,
其中,在檢測結(jié)果為與所述原創(chuàng)文章的相似度大于所述相似度閾值的轉(zhuǎn)載體沒有所述文章來源標(biāo)識的情況下,判斷與所述原創(chuàng)文章的相似度大于所述相似度閾值的轉(zhuǎn)載體的發(fā)布時間是否晚于所述原創(chuàng)文章的首發(fā)時間。
6.一種網(wǎng)站轉(zhuǎn)載數(shù)量的統(tǒng)計裝置,其特征在于,包括:
爬取單元,用于利用爬蟲爬取原創(chuàng)文章的轉(zhuǎn)載體,得到所述原創(chuàng)文章的第一網(wǎng)站轉(zhuǎn)載結(jié)果,其中,所述原創(chuàng)文章為在目標(biāo)網(wǎng)站上首發(fā)的文章;
獲取單元,用于獲取所述原創(chuàng)文章的屬性信息,其中,所述屬性信息包括標(biāo)題信息和/或關(guān)鍵詞信息;
搜索單元,用于根據(jù)獲取的所述屬性信息利用搜索引擎搜索所述原創(chuàng)文章的轉(zhuǎn)載體,得到所述原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果;
合并單元,用于合并所述原創(chuàng)文章的所述第一網(wǎng)站轉(zhuǎn)載結(jié)果及所述第二網(wǎng)站轉(zhuǎn)載結(jié)果。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述合并單元包括:
刪除模塊,用于刪除所述原創(chuàng)文章的所述第二網(wǎng)站轉(zhuǎn)載結(jié)果中與所述第一網(wǎng)站轉(zhuǎn)載結(jié)果中的重復(fù)部分;
疊加模塊,用于將刪除了所述重復(fù)部分的第二網(wǎng)站轉(zhuǎn)載結(jié)果疊加到所述第一網(wǎng)站轉(zhuǎn)載結(jié)果中。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述搜索單元包括:
搜索模塊,用于根據(jù)獲取的所述屬性信息利用搜索引擎搜索所述原創(chuàng)文章的轉(zhuǎn)載體;
分析模塊,用于對所述原創(chuàng)文章與其轉(zhuǎn)載體進行相似度分析;
確定模塊,用于根據(jù)相似度分析結(jié)果確定所述原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述確定模塊包括:
第一確定子模塊,用于根據(jù)所述相似度分析結(jié)果確定出與所述原創(chuàng)文章的相似度大于相似度閾值的轉(zhuǎn)載體;
判斷子模塊,用于判斷與所述原創(chuàng)文章的相似度大于所述相似度閾值的轉(zhuǎn)載體的發(fā)布時間是否晚于所述原創(chuàng)文章的首發(fā)時間;
第二確定子模塊,用于在判斷結(jié)果為與所述原創(chuàng)文章的相似度大于所述相似度閾值的轉(zhuǎn)載體的發(fā)布時間晚于所述原創(chuàng)文章的首發(fā)時間的情況下,確定該轉(zhuǎn)載體屬于所述原創(chuàng)文章的第二網(wǎng)站轉(zhuǎn)載結(jié)果。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述確定模塊還包括:
檢測子模塊,用于在判斷與所述原創(chuàng)文章的相似度大于所述相似度閾值的轉(zhuǎn)載體的發(fā)布時間是否晚于所述原創(chuàng)文章的首發(fā)時間之前,檢測與所述原創(chuàng)文章的相似度大于所述相似度閾值的轉(zhuǎn)載體是否有文章來源標(biāo)識,
其中,所述判斷子模塊還用于在檢測結(jié)果為與所述原創(chuàng)文章的相似度大于所述相似度閾值的轉(zhuǎn)載體沒有所述文章來源標(biāo)識的情況下,判斷與所述原創(chuàng)文章的相似度大于所述相似度閾值的轉(zhuǎn)載體的發(fā)布時間是否晚于所述原創(chuàng)文章的首發(fā)時間。