專利名稱:評估盜版網(wǎng)站影響程度的方法及系統(tǒng)的制作方法
技術(shù)領域:
本發(fā)明涉及計算機網(wǎng)絡技術(shù)領域,尤其涉及一種評估盜版網(wǎng)站影響程度的方法及系統(tǒng)。
背景技術(shù):
隨著Internet和數(shù)字化技術(shù)的快速發(fā)展,傳統(tǒng)作品,如文學作品、漫畫、錄像、電影等,越來越多的被轉(zhuǎn)化成數(shù)字內(nèi)容放在網(wǎng)絡上,然而,由于數(shù)字化信息很容易被復制、修改和傳播,用戶有意或無意地對網(wǎng)絡信息進行任意的拷貝和粘貼,尤其是一些中小網(wǎng)站以非常低廉的成本獲取網(wǎng)絡上的各種內(nèi)容和信息,并將之放置到自己的網(wǎng)站上,并通過發(fā)布未經(jīng)授權(quán)的內(nèi)容營利。
盜版作品即包括視頻、音頻、圖片以及文字等形式,盜版網(wǎng)站是指發(fā)布未經(jīng)授權(quán)的包括視頻、音頻、圖片以及文字等形式作品的網(wǎng)站,即發(fā)布盜版作品的網(wǎng)站。盜版網(wǎng)站給版權(quán)所有人和相關(guān)版權(quán)的使用者帶來經(jīng)濟損失,是因為盜版網(wǎng)站分享了瀏覽作品的用戶,大大的減少了使用授權(quán)正版內(nèi)容的用戶量,從而竊取了版權(quán)所有人和相關(guān)版權(quán)使用者的利益。所以,對一個盜版網(wǎng)站來說,它的流行程度、流量、所擁有的用戶量越大,它所造成的危害就越大;它包含的盜版鏈接越多,侵權(quán)的內(nèi)容就越多,對版權(quán)所有人和相關(guān)版權(quán)使用者所造成的危害也就越大。
由于進入互聯(lián)網(wǎng)產(chǎn)業(yè)的門檻非常低,從而滋生了大量的盜版網(wǎng)站,這種無所顧忌的二次傳播(如網(wǎng)絡共享等),以非??斓乃俣认♂屃藵撛诘挠脩糍Y源,給相關(guān)權(quán)利人造成巨大的經(jīng)濟損失。因此,面對如此眾多的盜版網(wǎng)站,如何通過技術(shù)手段而不是人工方法找到危害指數(shù)最大的盜版網(wǎng)站,進而進行制止和打擊,已成為近年來法律界和IT界所面臨的一個重要問題。
傳統(tǒng)的評估盜版網(wǎng)站影響程度的方式,一般是通過相關(guān)人員的舉報,然后相關(guān)人員再去打擊,這種方式,沒有一種確定網(wǎng)站危害程度的方法,完全是靠人為感覺。如果運氣夠好的話,會發(fā)現(xiàn)被打擊的網(wǎng)站是一個危害非常大的網(wǎng)站,運氣不好的話,可能這個網(wǎng)站的訪問量非常小,危害幾乎可以忽略不計,特別是在盜版網(wǎng)站如此之多的情況下,盜版網(wǎng)站的打擊效率非常低。
還有一種方式是通過相關(guān)人員根據(jù)該網(wǎng)站的流行程度去打擊盜版網(wǎng)站。一個網(wǎng)站的流行程度,往往是根據(jù)網(wǎng)站的PageRank值、alexa排名、流量、訪問量及搜索引擎的收錄量等來決定的。其中,PageRank值(PR值,網(wǎng)頁級別),取自Google的創(chuàng)始人LarryPage。它是Google排名運算法則(排名公式)的一部分,是Google用來標識網(wǎng)頁的等級/重要性的一種方法,是Google用來衡量一個網(wǎng)站的好壞的一項重要標準。網(wǎng)頁級別從I到10級,10級為滿分,PageRank值越高說明該網(wǎng)頁越受歡迎(越重要);UV(Unique Visitor),即訪問一個網(wǎng)站的一臺電腦客戶端為一個訪客,00:00-24:00內(nèi)相同的客戶端只被計算一次,UV值即一個網(wǎng)站一天的訪問量;PV(Page View),即頁面瀏覽量或點擊量,用戶每次刷新即被計算一次。PV值即是網(wǎng)站的訪問量;alexa排名是指網(wǎng)站的世界排名,主要分兩種:綜合排名和分類排名,alexa排名提供了包括綜合排名、到訪量排名、頁面訪問量排名等多個評價指標信息,大多數(shù)人把它當作每個較為權(quán)威的網(wǎng)站訪問量評價指標。但是這種方式下,一些流行程度較高的網(wǎng)站往往是一些正規(guī)合法的網(wǎng)站,因此,這種方式的盜版網(wǎng)站打擊效率也不高,不能滿足人們對打擊盜版網(wǎng)站的準確性和打擊效率的要求。發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種評估盜版網(wǎng)站影響程度的方法及系統(tǒng),基于網(wǎng)站信息的統(tǒng)計,可以對網(wǎng)站進行危害指數(shù)的計算,從而對其危害程度進行定量分析,來提高打擊盜版網(wǎng)站的效率,為版權(quán)保護提供幫助。
為解決上述問題,本發(fā)明提供一種評估盜版網(wǎng)站影響程度的方法,包括以下步驟:
選擇取樣網(wǎng)站并收集所述取樣網(wǎng)站中的每個網(wǎng)站的基本信息數(shù)據(jù),所述基本信息包括網(wǎng)站排名和訪問量,計算每個網(wǎng)站的各項基本信息比重;
查找每個網(wǎng)站的盜版作品,根據(jù)每個網(wǎng)站的盜版鏈接數(shù)量及盜版作品的熱門指數(shù)計算每個網(wǎng)站的盜版鏈接比重和熱門指數(shù)比重;
對所述取樣網(wǎng)站中的每個網(wǎng)站依次進行其各項基本信息比重、盜版鏈接比重和熱門指數(shù)比重的加權(quán)處理,得到所述每個網(wǎng)站的危害程度指數(shù)。
進一步的,所述基本信息還包括網(wǎng)站PageRank值、網(wǎng)站年齡及搜索引擎收錄量中的至少一種,所述訪問量包括網(wǎng)站日UV和/或網(wǎng)站日PV。
進一步的,計算每個網(wǎng)站的各項基本信息比重的步驟包括:
設定各項基本信息的歸一化系數(shù)或歸一化函數(shù);
按照所述設定,對每個網(wǎng)站的各項基本信息數(shù)據(jù)進行處理,得到每個網(wǎng)站的各項基本信息比重。
進一步的,計算所述每個網(wǎng)站的盜版鏈接比重和熱門指數(shù)比重的步驟包括:
通過匹配算法得到每個網(wǎng)站的盜版鏈接數(shù)量,歸一化計算得到每個網(wǎng)站的盜版鏈接比重;以及
對每個盜版作品的熱門指數(shù)進行統(tǒng)計和加權(quán)計算,得出所述每個網(wǎng)站的熱門指數(shù)權(quán)重。
進一步的,所述歸一化計算得到每個網(wǎng)站的盜版鏈接比重的公式為:
權(quán)利要求
1.一種評估盜版網(wǎng)站影響程度的方法,其特征在于,包括: 選擇取樣網(wǎng)站并收集所述取樣網(wǎng)站中的每個網(wǎng)站的基本信息數(shù)據(jù),所述基本信息包括網(wǎng)站排名和訪問量,計算每個網(wǎng)站的各項基本信息比重; 查找每個網(wǎng)站的盜版作品,根據(jù)每個網(wǎng)站的盜版鏈接數(shù)量及盜版作品的熱門指數(shù)計算每個網(wǎng)站的盜版鏈接比重和熱門指數(shù)比重; 對所述取樣網(wǎng)站中的每個網(wǎng)站依次進行其各項基本信息比重、盜版鏈接比重和熱門指數(shù)比重的加權(quán)處理,得到所述每個網(wǎng)站的危害程度指數(shù)。
2.如權(quán)利要求1所述的評估盜版網(wǎng)站影響程度的方法,其特征在于,所述基本信息還包括網(wǎng)站PageRank值、網(wǎng)站年齡及搜索引擎收錄量中的至少一種,所述訪問量包括網(wǎng)站日UV和/或網(wǎng)站日PV。
3.如權(quán)利要求2所述的評估盜版網(wǎng)站影響程度的方法,其特征在于,計算每個網(wǎng)站的各項基本信息比重的步驟包括: 設定各項基本信息的歸一化系數(shù)或歸一化函數(shù); 按照所述設定,對每個網(wǎng)站的各項基本信息數(shù)據(jù)進行處理,得到每個網(wǎng)站的各項基本信息比重。
4.如權(quán)利要求1所述的評估盜版網(wǎng)站影響程度的方法,其特征在于,計算所述每個網(wǎng)站的盜版鏈接比重和熱門指數(shù)比重的步驟包括: 通過匹配算法得到每個網(wǎng)站的盜版鏈接數(shù)量,歸一化計算得到每個網(wǎng)站的盜版鏈接比重;以及 對每個盜版作品的熱門指數(shù)進行統(tǒng)計和加權(quán)計算,得出所述每個網(wǎng)站的熱門指數(shù)權(quán)重。
5.如權(quán)利要求4所述的評估盜版網(wǎng)站影響程度的方法,其特征在于,所述歸一化計算得到每個網(wǎng)站的盜版鏈接比重的公式為:
6.如權(quán)利要求1或4所述的評估盜版網(wǎng)站影響程度的方法,其特征在于,每個盜版作品的熱門指數(shù)通過互聯(lián)網(wǎng)上的排行榜得到,并定義沒有進入排行榜的盜版作品的熱門指數(shù)為O0
7.如權(quán)利要求1所述的評估盜版網(wǎng)站影響程度的方法,其特征在于,得出所述每個網(wǎng)站的熱門指數(shù)權(quán)重的計算公式為:"V" {----1 *URLj +0.1 ,work rank < I work rank = j ^=0^ 5000 JJ -,其中,URLi 為第 i 個盜版作 1,work _ rank > I品的熱門指數(shù),η為每個網(wǎng)站所有盜版作品的個數(shù)。
8.一種評估盜版網(wǎng)站影響程度的系統(tǒng),其特征在于,包括: 基本信息比重單元,用于選擇取樣網(wǎng)站并收集所述取樣網(wǎng)站中的每個網(wǎng)站的基本信息數(shù)據(jù),所述基本信息包括網(wǎng)站排名和訪問量,計算每個網(wǎng)站的各項基本信息的比重; 盜版鏈接和熱門指數(shù)比重單元,用于查找每個網(wǎng)站的盜版作品,根據(jù)每個網(wǎng)站的盜版鏈接數(shù)量及盜版作品的熱門指數(shù)計算每個網(wǎng)站的盜版鏈接比重和熱門指數(shù)比重; 危害程度指數(shù)單元,用于對所述取樣網(wǎng)站中的每個網(wǎng)站依次進行其各項基本信息的比重、盜版鏈接比重和熱門指數(shù)比重的加權(quán)處理,得到所述每個網(wǎng)站的危害程度指數(shù)。
9.如權(quán)利要求8所述的評估盜版網(wǎng)站影響程度的系統(tǒng),其特征在于,所述基本信息還包括網(wǎng)站PageRank值、網(wǎng)站年齡及搜索引擎收錄量中的至少一種;所述訪問量包括網(wǎng)站日UV和/或網(wǎng)站日PV。
10.如權(quán)利要求8所述的評估盜版網(wǎng)站影響程度的系統(tǒng),其特征在于,所述基本信息比重單元通過設定各項基本信息的歸一化系數(shù)或歸一化函數(shù),并按照所述設定,對每個網(wǎng)站的各項基本信息數(shù)據(jù)進行處理,得到每個網(wǎng)站的各項基本信息比重。
11.如權(quán)利要求8所述的評估盜版網(wǎng)站影響程度的系統(tǒng),其特征在于,所述盜版鏈接和熱門指數(shù)比重單元計算所述每個網(wǎng)站的盜版鏈接比重和熱門指數(shù)比重的步驟包括: 通過匹配算法得到每個網(wǎng)站的盜版鏈接數(shù)量,歸一化計算得到每個網(wǎng)站的盜版鏈接比重; 對每個盜版作品的熱門指數(shù)進行統(tǒng)計和加權(quán)計算,得出所述每個網(wǎng)站的熱門指數(shù)權(quán)重。
12.如權(quán)利要求8或11所述的評估盜版網(wǎng)站影響程度的系統(tǒng),其特征在于,每個盜版作品的熱門指數(shù)通過互聯(lián)網(wǎng)上的排行榜得到 ,并定義沒有進入排行榜的盜版作品的熱門指數(shù)為O。
全文摘要
本發(fā)明提供一種評估盜版網(wǎng)站影響程度的方法及系統(tǒng),基于網(wǎng)站的各項基本信息數(shù)據(jù)、盜版鏈接數(shù)量以及盜版作品的熱門指數(shù)信息數(shù)據(jù)的統(tǒng)計,對各網(wǎng)站進行危害程度指數(shù)計算,從而實現(xiàn)對網(wǎng)站的危害程度的定量分析和評估,依據(jù)得到的危害程度排行進行盜版網(wǎng)站打擊,可極大地提高盜版網(wǎng)站的打擊準確性和效率,為版權(quán)保護提供幫助。
文檔編號G06F19/00GK103218505SQ201210017828
公開日2013年7月24日 申請日期2012年1月19日 優(yōu)先權(quán)日2012年1月19日
發(fā)明者鄭達韡, 李敏, 鄭維智 申請人:盛樂信息技術(shù)(上海)有限公司